発現変動遺伝子のリストを「パスウェイ解析」にかけて満足する人は多い。でも落とし穴が並んでいる。
① 背景遺伝子の設定ミス:全ゲノムを背景にすると、検出した時点で偏っているものが有意に出る。使った発現遺伝子を背景にする。
② 多重検定の放置:何百ものパスウェイを一気に検定する。補正なしの「有意」は信じない。
③ 遺伝子数の偏り:大きなパスウェイほど引っかかりやすい。
④ 解釈の飛躍:「この経路が有意」と「この経路が原因」は違う。
よくある間違いは、出てきた経路名を見て物語を作ってしまうこと。エンリッチメントは仮説を生む道具で、答えを出す道具ではない。
きれいな経路名ほど、一度疑ったほうがいい。
解析が複雑になるほど、「手順を手で回す」のが限界になる。パイプライン管理を入れる判断軸を整理する。
① ステップが5つを超えたら導入を検討。手作業のコピペはミスの温床。
② NextflowかSnakemakeが定番。チームにPython文化があるならSnakemakeが入りやすい。
③ 途中で失敗しても、成功したステップからやり直せるのが最大の利点。
④ 設定ファイルにパラメータを集約すると、半年後の自分が救われる。
よくある間違いは、使い捨ての解析にまで重装備を入れること。1回きりならシェルスクリプトで十分。
道具は、繰り返す作業にこそ効く。導入の目的は「楽をする」ではなく「同じ結果を再現する」ことだ。
RNA-seqの発現量、どの単位で比べるかで結論が変わる。基本を整理する。
① CPM:総リード数で割っただけ。サンプル間の比較向き。遺伝子の長さは無視。
② FPKM/RPKM:遺伝子の長さでも補正。同一サンプル内で遺伝子同士を比べる時に。
③ TPM:FPKMの弱点を直した版。合計が揃うのでサンプル間比較に向く。今はこれが主流。
④ 生のカウント:DESeq2などに渡すのはこっち。正規化済みを入れてはいけない。
よくある間違いは、TPMをそのまま統計検定にかけること。可視化と検定では使う値が違う。
単位を取り違えると、出てくる差はすべて幻になる。
「何リード読めばいいですか」という質問は、解析の入口で必ず出る。深さの目安を整理しておく。
① 変異検出(全ゲノム):30xが定番。これ未満だとヘテロ接合を見落とす。
② エクソーム:100x前後。狙いを絞る分、深く読む。
③ RNA-seq(発現量):深さより、まず生物学的反復の数。
④ 単一細胞:細胞数とのトレードオフ。深さを欲張ると細胞が減る。
よくある間違いは、「とにかく深く読めば安心」という思い込み。深さより、反復数が足りずに統計が成り立たないケースのほうが圧倒的に多い。
お金をかけるべきは、深さではなくサンプル数のことが多い。