q値 (統計)


Q-value_(statistics)

その他の用法については「Q 値」をご覧
統計的仮説検定、特に多重仮説検定では、Storey-Tibshirani 手順のq値は、陽性偽発見率(pFDR)を制御する手段を提供します。 p値が、等しいかそれより小さいp値を持つ結果について帰無仮説を棄却することによって得られる期待偽陽性率を与えるのと同様に、 q値は、任意の結果について帰無仮説を棄却することによって得られる期待される pFDR を与えます。q値が等しいかそれより小さい。
正しく計算された p 値を仮定して、複数の仮説検定を補正するための Storey-Tibshirani 手順の概略図。y 軸は周波数です。
コンテンツ
1 歴史
2 意味
3 p値との関係
4 解釈
5 アプリケーション
5.1 生物学
5.1.1 遺伝子発現
6 実装
6.1 R
7 参考文献

歴史
統計学では、単一の仮説をテストするのに適した方法を使用して複数の仮説を同時にテストすると、多くの偽陽性が発生する傾向がいわゆる多重比較問題です。たとえば、1,000 個の帰無仮説を検定し、そのすべてが真であり、(単一仮説検定では通常行われているように) 有意水準 0.05 で帰無仮説を棄却すると仮定します。ランダムな偶然により、結果の 5% が有意であると予想され ( P < 0.05)、50 の偽陽性 (帰無仮説の棄却) が生じます。 1950 年代以来、統計学者はボンフェローニ補正を使用して家族ごとの誤り率(FWER)を制御するなど、偽陽性の数を減らす多重比較の方法を開発していましたが、これらの方法は偽陰性の数も増加させました。 (つまり、統計的検出力が低下しました)。 1995 年に、Yoav Benjaminiと Yosef Hochberg は、複数の仮説検定における FWER を制御するより統計的に強力な代替手段として、誤検出率(FDR) を制御することを提案しました。 pFDR とq- value は、FDR の制限、つまり肯定的な結果がない場合には FDR が定義されないという問題を改善するために、2002 年にJohn D. Storeyによって導入されました。

意味
帰無仮説があるとしましょうH 0
{ H_{0}}

そして対立仮説H 1
{ H_{1}}

。実行
メートル
{ m}

仮説テスト。テスト統計をiid 確率変数にします T 1 … T
メートル
{ T_{1},ldots ,T_{m}}

そのようなT I
∣D I 〜 ( 1− D I) ⋅ F0 D I
⋅F 1
{ T_{i}mid D_{i}sim (1-D_{i})cdot F_{0}+D_{i}cdot F_{1}}

。つまり、もしH 0
{ H_{0}}

テストでは真です I { i}
( D I 0 { D_{i}=0}

)、 それからT I
{ T_{i}}

ヌル分布に従いますF 0
{ F_{0}}

; 一方、もしH 1
{ H_{1}}

それは本当です( D I 1 { D_{i}=1}

)、 それからT I
{ T_{i}}

代替ディストリビューションに従いますF 1
{ F_{1}}

。させてD I 〜 ベルヌーイ( π 1) { D_{i}sim operatorname {ベルヌーイ} (pi _{1})}

つまり、テストごとに、H 1
{ H_{1}}

それは確率的に真実ですπ 1
{ pi _{1}}
と H 0
{ H_{0}}

それは確率的に真実です
π0 1− π 1
{ pi _{0}=1-pi _{1}}

。クリティカル領域(の値)を示します。T I
{ T_{i}}

誰のためにH 0
{ H_{0}}

は拒否されます)有意水準で α { alpha }
Γ α { Gamma _{alpha }}

。実験で値を導き出してみましょう t { t}

テスト統計用。のq値 t { t}

は正式に次のように定義されます
無限 { Γ α :t ∈
Γ α } pFDR ( Γα )
{ inf _{{Gamma _{alpha }:tin Gamma _{alpha }}}operatorname {pFDR} (Gamma _{alpha })}

つまり、次の場合、 q値はpFDR の下限になります。H 0
{ H_{0}}

値を含むテスト統計は拒否されます≥ t
{ geq t}

。同様に、q値は次と等しくなります。
無限 { Γ α :t ∈
Γ α }
広報( H= 0 ∣ T ∈ Γ α )
{ inf _{{Gamma _{alpha }:tin Gamma _{alpha }}}Pr(H=0mid Tin Gamma _{alpha })}

これは確率の下限です。H 0
{ H_{0}}

それを考えるとそれは真実ですH 0
{ H_{0}}

拒否されます (誤検出率)。

p値との関係
p値は次のように定義されます。
無限 { Γ α :t ∈
Γ α }
広報( T∈ Γ α ∣ D = 0 )
{ inf _{{Gamma _{alpha }:tin Gamma _{alpha }}}Pr(Tin Gamma _{alpha }mid D=0)}

その確率の下限H 0
{ H_{0}}

を考慮すると拒否されますH 0
{ H_{0}}

は true (偽陽性率) です。p値とq値の定義を比較すると、 q値は次の最小事後確率であることがわかります。H 0
{ H_{0}}

それは本当です。

解釈
q値は、偽発見率 (FDR)、つまりすべての陽性結果のうちの偽陽性の割合として解釈できます。一連の検定統計量とそれに関連するq値が与えられた場合、 q値があるしきい値以下であるすべての検定について帰無仮説を棄却します。 α { alpha }

誤検出率の期待値が確実に α { alpha }
。 アプリケーション編集

生物学

遺伝子発現
差次的な遺伝子発現のゲノム規模の解析には、数千の遺伝子の発現を同時にテストすることが含まれます。FWERを制御すると(通常は0.05に)、過剰な偽陽性(つまり、差次的に発現していない遺伝子における差次的発現の検出)が回避されますが、p値に厳密な閾値が課せられるため、多くの偽陰性が生じます(多くの示差的に発現している遺伝子が見落とされます)。 。ただし、有意なq値を持つ遺伝子を選択することによって pFDR を制御すると、すべての陽性結果における偽陽性の割合の期待値が低くなります (たとえば、5%) ことが保証されながら、偽陰性の数が減少します (統計検出力が増加します)。
たとえば、テストした 10,000 個の遺伝子のうち、1,000 個は実際に発現差があり、9,000 個は発現していないとします。
p値が 0.05 未満のすべての遺伝子が差次的に発現していると考えると、差次的に発現していない 9,000 個の遺伝子のうち 450 (5%) が差次的に発現しているように見えると予想されます (450 個の偽陽性) 。
FWER を 0.05 に制御すると、少なくとも 1 つの偽陽性が発生する確率はわずか 5% になります。ただし、この非常に厳格な基準により検出力が低下し、実際に差次的に発現している 1,000 個の遺伝子のうち、差次的に発現しているように見えるものはほとんどなくなります (多くの偽陰性)。
q値が 0.05 未満のすべての遺伝子が差次的に発現しているとみなして pFDR を 0.05 に制御すると、陽性結果の 5% が偽陽性であると予想されます (例: 真陽性 900 個、偽陽性 45 個、偽陽性 100 個)陰性者、真陰性者 8,955 名)。この戦略により、偽陽性と偽陰性の両方を比較的少ない数で得ることができます。

実装
注: 以下は不完全なリストです。

R
Rのqvalueパッケージは、 p値のリストからq値を推定します。

参考文献
^ ストーリー、ジョン D. (2003)。「陽性誤検出率: ベイズ解釈と q 値」。統計年報。31 (6): 2013 ~ 2035 年。土井:10.1214/aos/1074290335。
^ ベンジャミニ、ヨアヴ; Hochberg、Yosef (1995)。「誤検出率の制御: 複数のテストに対する実用的で強力なアプローチ」。王立統計協会のジャーナル。シリーズ B (方法論)。57:289~300。土井:10.1111/j.2517-6161.1995.tb02031.x。
^ ヌッツォ、レジーナ(2014). 「科学的方法: 統計的誤差」。自然。2019 年3 月 5 日に取得。
^ ストーリー、ジョン D. (2002)。「虚偽発見率への直接的なアプローチ」。王立統計協会ジャーナル、シリーズ B (統計的方法論)。64 (3): 479–498。CiteSeerX 10.1.1.320.7131。土井: 10.1111/1467-9868.00346。  
^ ストーリー、ジョン D.; ロバート・ティブシラニ (2003)。「ゲノムワイド研究の統計的有意性」。PNAS。100 (16): 9440–9445。Bibcode : 2003PNAS..100.9440S。土井:10.1073/pnas.1530509100。PMC 170937。PMID 12883005。    ^ ストーリー、ジョン D. ベース、アンドリュー・J. ダブニー、アラン。ロビンソン、デイビッド。ウォーンズ、グレゴリー (2019)。「qvalue: 誤検出率制御のための Q 値推定」。生体伝導体。”