効果の大きさ


Effect_size
、の 数学表記では、異なる記号を使用して、同様の数式で同じ量を表します。
統計では、効果量は、母集団内の2つの変数間の関係の強さを測定する数値、またはその量のサンプルベースの推定値です。これは、データのサンプルから計算された統計の値、仮想母集団のパラメーターの値、または統計またはパラメーターが効果量の値にどのようにつながるかを操作可能にする方程式を参照できます。効果量の例には、2つの変数間の相関、 回帰の回帰係数、平均差、または特定のイベント(心臓発作など)が発生するリスクが含まれます。効果量は補完する統計的仮説検定であり、検出力分析、サンプルサイズの計画、およびメタ分析で重要な役割を果たします。効果量に関するデータ分析手法のクラスターは、推定統計と呼ばれます。
効果量は、統計的主張の強さを評価する際に不可欠な要素であり、MAGIC基準の最初の項目(大きさ)です。効果量の標準偏差は、測定に含まれる不確かさの程度を示すため、非常に重要です。標準偏差が大きすぎると、測定はほとんど意味がなくなります。複数の効果量を組み合わせることが目的であるメタアナリシスでは、効果量の不確実性を使用して効果量を評価するため、小規模な研究よりも大規模な研究の方が重要であると見なされます。効果量の不確実性は、効果量のタイプごとに異なる方法で計算されますが、通常は、調査のサンプルサイズ(N)、または各グループの観測数( n )を知るだけで済みます。
効果量またはその推定値(効果推定値、効果の推定値)を報告することは、多くの分野での実証的研究結果を提示する際の良い習慣と見なされます。 効果量の報告は、その統計的有意性とは対照的に、研究結果の重要性の解釈を容易にします。効果量は、社会科学および医学研究(治療効果の大きさが重要である場合)で特に顕著です。
効果量は、相対的または絶対的な用語で測定できます。相対効果量では、オッズ比や相対リスクのように、2つのグループが互いに直接比較されます。絶対効果量の場合、絶対値が大きいほど、常に効果が強いことを示します。多くの種類の測定値は、絶対値または相対値のいずれかで表すことができ、異なる情報を伝達するため、これらを一緒に使用できます。心理学研究コミュニティの著名なタスクフォースは、次の推奨事項を作成しました。
主要な結果の効果量を常に提示する…測定単位が実用的なレベルで意味がある場合(たとえば、1日あたりの喫煙本数)、通常、標準化された測定値よりも標準化されていない測定値(回帰係数または平均差)を優先します(rまたはd)。

コンテンツ
1 概要
1.1 母集団とサンプルの効果量 1.2 検定統計量との関係 1.3 標準化された効果量と標準化されていない効果量
2 解釈
3 タイプ
3.1 相関ファミリー:「分散の説明」に基づく効果量
3.1.1 ピアソンrまたは相関係数
3.1.1.1 決定係数(r2またはR2 )
3.1.1.2 イータ二乗(η2)
3.1.1.3 オメガ二乗(ω2)
3.1.2 コーエンのƒ2
3.1.3 コーエンのq
3.2 差異ファミリー:平均間の差異に基づく効果量
3.2.1 標準化された平均差
3.2.2 コーエンのd
3.2.3 ガラスのΔ
3.2.4 ヘッジのg
3.2.5 Ψ、二乗平均平方根の標準化された効果
3.2.6 平均に基づく効果量の分布
3.2.7 その他の指標
3.3 カテゴリカルファミリー:カテゴリ変数間の関連の効果量
3.3.1 コーエンのw
3.3.2 オッズ比
3.3.3 相対危険度
3.3.4 リスクの違い
3.3.5 コーエンのh
3.43.4 共通言語の効果量
3.4.1 ランク-バイシリアル相関
3.5 順序データの効果量
4 非中心性パラメーターによる信頼区間
4.1 t-単一グループまたは2つの関連グループの平均差を検定します 4.2 2つの独立したグループ間の平均差のt検定 4.3 複数の独立したグループ間の平均差に対する一元配置分散分析
5 も参照してください
6 参考文献
6.1 参考文献
7 外部リンク

概要

母集団とサンプルの効果量
統計的推定と同様に、真の効果量は観察された効果量とは区別されます。たとえば、母集団の疾患のリスクを測定するために(母集団の効果量)、その母集団のサンプル内のリスクを測定できます(サンプルの効果量)。 。真の効果量と観測された効果量を説明するための規則は、標準的な統計手法に従います。一般的なアプローチの1つは、母集団のパラメーターを表すためにρのようなギリシャ文字を使用し、対応する統計を表すためにrのようなラテン文字を使用することです。または、「帽子」を母集団パラメータの上に配置して、統計を示すことができます。ρ
^ { { hat { rho}}}

 パラメータの推定値です ρ { rho}

 。
他の統計設定と同様に、効果量はサンプリング誤差で推定され、使用される効果量推定量がデータのサンプリング方法と測定方法に適切でない限り、バイアスがかかる可能性がこの例は、推定された効果量が大きいか統計的に有意である場合にのみ科学者が結果を報告するときに発生する出版バイアスです。その結果、多くの研究者が低い統計的検出力で研究を実施する場合、報告された効果量は、もしあれば、真の(母集団)効果よりも大きくなる傾向が効果量が歪む可能性のある別の例は、複数試行の実験であり、効果量の計算は、試行全体の平均または集計された応答に基づいています。

検定統計量との関係
サンプルベースの効果量は、観測された関係の大きさが原因であるかどうかを反映する有意水準を割り当てるのではなく、たとえば、見かけの関係の強さ(大きさ)を推定するという点で、仮説検定で使用される検定統計量とは区別されます。偶然に。効果量が有意水準を直接決定することはなく、その逆も同様です。サンプルサイズが十分に大きい場合、母集団効果サイズが正確にゼロでない限り、非ヌルの統計的比較は常に統計的に有意な結果を示します(それでも、使用されるタイプIエラーの割合で統計的有意性を示します)。たとえば、サンプルサイズが1000の場合、サンプルのピアソン相関係数0.01は統計的に有意です。0.01の相関が小さすぎて特定のアプリケーションに関心がない場合、この分析から有意なp値のみを報告すると誤解を招く可能性が

標準化された効果量と標準化されていない効果量
効果量という用語は、標準化された効果の尺度(r、コーエンのd、またはオッズ比など)、または標準化されていない尺度(たとえば、グループ平均または標準化されていない回帰係数の差)を指す場合が標準化された効果量の測定値は、通常、次の場合に使用されます。
調査中の変数の測定基準には、本質的な意味はありません(たとえば、任意のスケールでの性格検査のスコア)。
複数の研究の結果が組み合わされています、
一部またはすべての研究で異なる尺度が使用されている、または
母集団の変動性に対する効果の大きさを伝えることが望ましい。
メタアナリシスでは、標準化された効果量が一般的な尺度として使用され、さまざまな研究で計算して、全体的な要約にまとめることができます。

解釈
効果量を小、中、大のいずれとして解釈すべきかは、その実質的な文脈と運用上の定義に依存します。コーエンの従来の基準である小、中、大は、多くの分野でほぼ遍在していますが、コーエンは次のように警告しています。
「「小」、「中」、「大」という用語は、相互に関連するだけでなく、行動科学の分野、さらに具体的には、特定の調査で採用されている特定の内容と調査方法に関連しています。 ..この相対性理論に直面して、行動科学と同じくらい多様な調査分野での電力分析で使用するためにこれらの用語の従来の操作上の定義を提供することに固有の特定のリスクが ES指数を推定するためのより良い基礎が利用できない場合にのみ使用することが推奨される、一般的な従来の参照フレームを提供することによって、失われるよりも得られるべきです。」(p。25)
2つのサンプルレイアウトで、Sawilowsky は、コーエンの注意を念頭に置いて、「応用文献の現在の研究結果に基づいて、効果量の経験則を改訂することが適切であると思われる」と結論付け、説明を非常に小さいものに拡張しました。 、非常に大きく、そして巨大です。同じ事実上の標準を他のレイアウト用に開発することもできます。
Lenth は、「中」の効果量で、「楽器の精度や信頼性、被写体の狭さや多様性に関係なく、同じnを選択します。明らかに重要な考慮事項はここでは無視されています。研究者結果の実質的な重要性を、意味のある文脈に基づいて、または知識への貢献を定量化することによって解釈する必要がコーエンの効果量の説明は、出発点として役立ちます。」同様に、米国教育省が後援する報告書は、「コーエンの一般的な小、中、大の効果量の値を、彼の規範的な値が適用されない領域の効果量を特徴づけるために広く無差別に使用することは、同様に不適切で誤解を招く」と述べています。 。」
彼らは、「適切な基準は、比較可能なサンプルを対象とした比較可能な介入からの比較可能な結果測定値の効果量の分布に基づくものである」と示唆した。したがって、ほとんどの介入が小さい分野での研究が(コーエンの基準による)小さな効果をもたらした場合、これらの新しい基準はそれを「大きい」と呼ぶでしょう。関連する点として、AbelsonのパラドックスとSawilowskyのパラドックスを参照して

タイプ
効果量の約50から100の異なる尺度が知られています。多くの人が2つの分布の分離を推定しているため、さまざまなタイプの多くの効果量を他のタイプに変換できます。これは数学的に関連しています。たとえば、相関係数をコーエンのdに変換したり、その逆を行うことができます。

相関ファミリー:「分散の説明」に基づく効果量
これらの効果量は、実験のモデル(説明された変動)によって「説明された」または「説明された」実験内の分散の量を推定します。

ピアソンrまたは相関係数
ピアソンの相関は、しばしばrで表され、カールピアソンによって導入され、ペアの定量的データが利用可能な場合の効果量として広く使用されています。たとえば、出生時体重と寿命の関係を研究している場合です。相関係数は、データがバイナリの場合にも使用できます。ピアソンのrの大きさは、-1から1まで変化します。-1は完全な負の線形関係を示し、1は完全な正の線形関係を示し、0は2つの変数間に線形関係がないことを示します。コーエンは社会科学のために次のガイドラインを与えています:
効果の大きさ r 小さい 0.10 中くらい 0.30 大きい
0.50

決定係数(r2またはR2 )
関連する効果量はr2であり、決定係数( R 2または「r -squared」とも呼ばれます)は、ピアソン相関rの2乗として計算されます。ペアのデータの場合、これは2つの変数によって共有される分散の比率の尺度であり、0から1まで変化します。たとえば、rが0.21の場合、決定係数は0.0441であり、これは、いずれかの変数の分散は、他の変数と共有されます。r 2は常に正であるため、2つの変数間の相関の方向を伝えません。

イータ二乗(η2)
Eta – squaredは、他の予測子を制御しながら、予測子によって従属変数で説明される分散の比率を表し、r2に類似しています。Eta-squaredは、母集団のモデルによって説明される分散のバイアス推定量です(サンプルの効果量のみを推定します)。この推定値は、追加の変数ごとにη2の値が自動的に増加するという弱点をr2と共有しています。さらに、母集団ではなく、サンプルについて説明された分散を測定します。つまり、サンプルが大きくなるにつれてバイアスは小さくなりますが、効果量は常に過大評価されます。 η 2= S S
処理
S S 合計 { eta ^ {2} = { frac {SS _ { text {Treatment}}} {SS _ { text {Total}}}}。}

 

オメガ二乗(ω2)
参照:
調整済みR 2
母集団で説明されている分散のバイアスの少ない推定量は、ω2です。 ω 2= SS
処理− d f
処理⋅ MS
エラー SS 合計+ MS
エラー { omega ^ {2} = { frac {{ text {SS}} _ { text {treatment}}-df _ { text {treatment}} cdot { text {MS}} _ { text {error}}} {{ text {SS}} _ { text {total}} + { text {MS}} _ { text {error}}}}。}
  この形式の式は、すべてのセルでサンプルサイズが等しい被験者間分析に限定されています。バイアスが少ないため(バイアスがないわけではありませんが)、η2よりもω2の方が適しています。ただし、複雑な分析を計算する方が不便な場合が推定量の一般化された形式は、被験者間および被験者内分析、反復測定、混合計画、およびランダム化ブロック計画実験のために公開されています。さらに、最大3つの独立変数を持つ設計の個々の因子および複合因子の部分ω2を計算する方法が公開されています。

コーエンのƒ2
コーエンのƒ2は、ANOVAまたは重回帰のF検定のコンテキストで使用するいくつかの効果量の尺度の1つです。そのバイアスの量(ANOVAの効果量の過大評価)は、説明されている分散分析の基礎となる測定値のバイアスに依存します(たとえば、R 2 、 η2 、 ω2 )。
重回帰のƒ2効果量の尺度は次のように定義されます。f 2 = R2 1 −R 2
{ f ^ {2} = {R ^ {2} over 1-R ^ {2}}}
  ここで、R2 は
2乗の多重相関です。
同様に、ƒ2は次のように定義できます。f 2 =
η2 1− η 2 { f ^ {2} = { eta ^ {2} over 1- eta ^ {2}}}

 またf 2 =
ω2 1− ω 2 { f ^ {2} = { omega ^ {2} over 1- omega ^ {2}}}
  それらの効果量の尺度によって記述されたモデルの場合。The f 2
{ f ^ {2}}

 逐次重回帰の効果量の尺度であり、PLSモデリングでも一般的であると、次のように定義されます。f 2 = R A
B2 − R A2 −R A B 2
{ f ^ {2} = {R_ {AB} ^ {2} -R_ {A} ^ {2} over 1-R_ {AB} ^ {2}}}
  ここで、 R 2
Aは、1つ以上の独立変数
Aのセットによって説明される分散であり、 R 2
ABは、 Aと1つ以上の対象の独立変数
Bの別のセットによって説明される分散の組み合わせ
です。慣例により、
ƒ2の
効果量0.1 2
{ 0.1 ^ {2}}
、 0.25 2
{ 0.25 ^ {2}}

 、 と0.4 2
{ 0.4 ^ {2}}

 それぞれ、小、
中、
大と呼ばれ
コーエンのf
^ { { hat {f}}}

 また、以下を使用して、逆方向に機能する分散分析(ANOVA)についても見つけることができます。f ^ 果 = ((F 効果
効果/ N
)。 { { hat {f}} _ { text {effect}} = { sqrt {(F _ { text {effect}} df _ { text {effect}} / N)}}。}
  ANOVAのバランスの取れた設計(グループ間で同等のサンプルサイズ)では、対応する母集団パラメーターはf 2
{ f ^ {2}}

 はS S((μ 1μ 2 …μ K)。 K ×× σ 2 { {SS( mu _ {1}、 mu _ {2}、 dots、 mu _ {K})} over {K times sigma ^ {2}}、}
  ここで、 μjは、合計Kグループのj番目のグループ内の母平均を示し、σは、各グループ内の同等の母標準偏差を示します。SSは、ANOVAの二乗和です。

コーエンのq
相関差で使用される別の尺度は、コーエンのqです。これは、2つのフィッシャー変換されたピアソン回帰係数の違いです。シンボルでは、 q =1 2 ログ1 + r1 − r 1 −1 2
ログ1 + r2 − r 2 { q = { frac {1} {2}} log { frac {1 + r_ {1}} {1-r_ {1}}}-{ frac {1} {2}} log { frac {1 + r_ {2}} {1-r_ {2}}}}
  ここで、r1とr2は比較される回帰です。qの期待値はゼロであり、その分散は var (( q
)。= 1 N 1 −
3+ 1 N 2 − 3 { operatorname {var}(q)= { frac {1} {N_ {1} -3}} + { frac {1} {N_ {2} -3}}}
  ここで、N1とN2は、それぞれ1番目と2番目の回帰のデータポイントの数です。

差異ファミリー:平均間の差異に基づく効果量
2つのグループの比較に関連する生の効果量は、本質的に2つの平均間の差として計算されます。ただし、解釈を容易にするために、効果量を標準化するのが一般的です。統計的標準化のさまざまな規則を以下に示します。

標準化された平均差
image
  コーエンのdのさまざまな値を示すガウス密度のプロット。
平均に基づく(母集団)効果量θは、通常、2つの母集団間の標準化された平均差を考慮します :78 θ = μ
1− μ 2 σ { theta = { frac { mu _ {1}- mu _ {2}} { sigma}}、}
  ここで、μ1は一方の母集団の平均、μ2はもう一方の母集団の平均、σはいずれかまたは両方の母集団に基づく標準偏差です。
実際の設定では、母集団の値は通常不明であり、サンプル統計から推定する必要が平均に基づく効果量のいくつかのバージョンは、使用される統計に関して異なります。
効果量のこの形式は、 t検定統計量の計算に似ていますが、 t検定統計量には次の係数が含まれるという重大な違いが n { { sqrt {n}}}

 。これは、特定の効果量に対して、有意水準がサンプルサイズとともに増加することを意味します。t検定統計とは異なり、効果量は母集団パラメーターを推定することを目的としており、サンプルサイズの影響を受けません。

コーエンのd
コーエンのdは、2つの平均間の差をデータの標準偏差で割ったものとして定義されます。d =X ¯
1−X ¯ 2 s { d = { frac {{ bar {x}} _ {1}-{ bar {x}} _ {2}} {s}}。}
  Jacob Cohenは、プールされた標準偏差sを次のように定義しました(2つの独立したサンプルの場合): :67 s =(( n1 − 1 )。s1 +(( n2 − 1 )。s2 n 1 + n2 − 2 { s = { sqrt { frac {(n_ {1} -1)s_ {1} ^ {2} +(n_ {2} -1)s_ {2} ^ {2}} {n_ {1 } + n_ {2} -2}}}}
  ここで、グループの1つの分散は次のように定義されます。s1 2 = 1 n 1− 1 ∑
I= 1 n 1 ( X 1 私−X ¯ 1 )。
2 { s_ {1} ^ {2} = { frac {1} {n_ {1} -1}} sum _ {i = 1} ^ {n_ {1}}(x_ {1、i}- { bar {x}} _ {1})^ {2}、}
  他のグループも同様です。
以下の表には、Cohenによって最初に提案され、Sawilowskyによって拡張された、d = 0.01から2.0の大きさの記述子が含まれています。
効果の大きさ d リファレンス
非常に少ない 0.01 小さい 0.20 中くらい 0.50 大きい 0.80 非常に大きい 1.20 巨大 2.0 他の著者は、分母が「-2」なしである「コーエンのd 」を参照するときに、標準偏差のわずかに異なる計算を選択します :14 s =(( n1 − 1 )。s1 +(( n2 − 1 )。s2 n 1 + n 2 { s = { sqrt { frac {(n_ {1} -1)s_ {1} ^ {2} +(n_ {2} -1)s_ {2} ^ {2}} {n_ {1 } + n_ {2}}}}}
  この「コーエンのd 」の定義は、HedgesとOlkinによって最尤推定量と呼ばれ 、スケーリング係数によってHedgesのgに関連付けられています(以下を参照)。
2つのペアのサンプルを使用して、差スコアの分布を調べます。その場合、sはこの差スコアの分布の標準偏差です。これにより、2つのグループの平均の差をテストするためのt統計量とコーエンのdの間に次の関係が作成されます。t =X ¯
1−X ¯
2SE =X ¯
1−X ¯ 2D N = N (( X ¯ 1−X ¯ 2 )。
S D { t = { frac {{ bar {X}} _ {1}-{ bar {X}} _ {2}} { text {SE}}} = { frac {{ bar { X}} _ {1}-{ bar {X}} _ {2}} { frac { text {SD}} { sqrt {N}}}} = { frac {{ sqrt {N} }({ bar {X}} _ {1}-{ bar {X}} _ {2})} {SD}}}

 と d =X ¯
1−X ¯
2SD = t N { d = { frac {{ bar {X}} _ {1}-{ bar {X}} _ {2}} { text {SD}}} = { frac {t} { sqrt {N}}}}
  コーエンのdは、統計的検定のサンプルサイズの推定に頻繁に使用されます。より低いコーエンのdは、より大きなサンプルサイズの必要性を示し、その逆も同様です。これは、必要な有意水準と統計的検出力の追加パラメーターとともに後で決定できます。
ペアのサンプルの場合、コーエンは、計算されたdは実際にはd ‘であり、テストの検出力を取得するための正しい答えを提供しないこと、および提供された表で値を調べる前に、rを次のように修正する必要があることを示唆しています。次の式で:d = d ′
1− r
{ d = { frac {d ‘} { sqrt {1-r}}}}

 

ガラスのΔ
1976年、Gene V. Glassは、2番目のグループの標準偏差のみを使用する効果量の推定量を提案しました :78 Δ =X ¯
1 −X ¯ 2
{ Delta = { frac {{ bar {x}} _ {1}-{ bar {x}} _ {2}} {s_ {2}}}}
  2番目のグループは対照群と見なすことができ、Glassは、いくつかの治療を対照群と比較した場合、効果量が同じ平均で異ならないように、対照群から計算された標準偏差のみを使用する方がよいと主張しました。と異なる分散。
母分散が等しいという正しい仮定の下では、 σのプールされた推定値はより正確です。

ヘッジのg
1981年にLarryHedgesによって提案されたHedges’g は、標準化された差異に基づく他の測定値と同様です :79 g =X ¯
1 −X ¯ ∗ { g = { frac {{ bar {x}} _ {1}-{ bar {x}} _ {2}} {s ^ {*}}}}
  ここで、プールされた標準偏差s ∗
{ s ^ {*}}

 次のように計算されます:s ∗ =(( n1 − 1 )。s1 +(( n2 − 1 )。s2 n 1 + n2 −
2 { s ^ {*} = { sqrt { frac {(n_ {1} -1)s_ {1} ^ {2} +(n_ {2} -1)s_ {2} ^ {2}} {n_ {1} + n_ {2} -2}}}。}
  ただし、母集団効果量θの推定量としてはバイアスがかかっています。それにもかかわらず、このバイアスは、係数を乗算することでほぼ修正できます。g ∗ = J(( n1 + n 2 − 2 )。g ≈(( 1
−3 4(( n1 n 2)。− 9
)。 g { g ^ {*} = J(n_ {1} + n_ {2} -2)、、g 、 approx 、 left(1-{ frac {3} {4(n_ { 1} + n_ {2})-9}} right)、、g}
  ヘッジとオルキンは、このバイアスの少ない推定量を参照していますg ∗
{ g ^ {*}}

 d、と同じですが、コーエンのdと同じではありません。補正係数J()の正確な形式には、ガンマ関数 :104 が含まれます。 J (( a
)。= Γ(( a/ 2
)。a / 2 Γ(( (( a− 1
)。/ 2
)。 { J(a)= { frac { Gamma(a / 2)} {{ sqrt {a / 2 、}} 、 Gamma((a-1)/ 2)}}。}

 

Ψ、二乗平均平方根の標準化された効果
多重比較( ANOVAなど)の同様の効果量推定量は、Ψ二乗平均平方根標準化効果です:Ψ = 1 k −
1⋅ ∑ j = 1 k (( μj − μ σ
)。 2 { Psi = { sqrt {{ frac {1} {k-1}} cdot sum _ {j = 1} ^ {k} left({ frac { mu _ {j}- mu} { sigma}} right)^ {2}}}}
  ここで、kは比較のグループ数です。
これは基本的に、 dまたはgに類似した、二乗平均平方根によって調整されたモデル全体のオムニバスの差を示します。
さらに、多因子設計の一般化が提供されています。

平均に基づく効果量の分布
データがガウス分布である場合、スケーリングされたヘッジのg、 n 1 n 2 / (( n
1+ n 2 )。 g { { sqrt {n_ {1} n_ {2} /(n_ {1} + n_ {2})}} 、g}

 、非心性パラメーターを使用した非心t分布に従います n 1 n 2 / (( n
1+ n 2 )。 θ { { sqrt {n_ {1} n_ {2} /(n_ {1} + n_ {2})}} theta}

 および(n 1  +  n 2  − 2)自由度。同様に、スケーリングされたGlassのΔはn 2  −1の自由度で分布されます。
分布から、効果量の期待値と分散を計算することができます。
場合によっては、分散の大きなサンプル近似が使用されます。ヘッジの不偏推定量の分散に関する1つの提案は、 :86 です。
σ (( g ∗ )。= n 1 + n
2n 1 n 2 +(( g ∗ )。2 (( n1 + n 2
)。 { { hat { sigma}} ^ {2}(g ^ {*})= { frac {n_ {1} + n_ {2}} {n_ {1} n_ {2}}} + { frac {(g ^ {*})^ {2}} {2(n_ {1} + n_ {2})}}。}

 

その他の指標
マハラノビス距離(D)は、コーエンのdの多変量一般化であり、変数間の関係を考慮に入れています。

カテゴリカルファミリー:カテゴリ変数間の関連の効果量
φφ= χ
2 N { varphi = { sqrt { frac { chi ^ {2}} {N}}}}

  
φφ
c= χ
2 N (( k− 1 )。 { varphi _ {c} = { sqrt { frac { chi ^ {2}} {N(k-1)}}}}

  
ファイ(φ)
クラメルのV(φc )
カイ二乗検定で一般的に使用される関連性の尺度は、ファイ係数とクラメルのV(クラメルのファイと呼ばれることもあり、φcと呼ばれることもあります)です。Phiは、ポイント-バイシリアル相関係数とコーエンのdに関連しており、2つの変数(2×2)間の関係の程度を推定します。 CramérのVは、3つ以上のレベルを持つ変数で使用できます。
Phiは、カイ2乗統計の平方根をサンプルサイズで割って求めることで計算できます。
同様に、CramérのVは、カイ2乗統計の平方根をサンプルサイズと最小次元の長さで割って計算されます(kは行数rまたは列 cの小さい方です)。
φcは、2つの離散変数の相互相関であり、 rまたはcの任意の値に対して計算できます。ただし、カイ2乗値はセルの数とともに増加する傾向があるため、 rとcの差が大きいほど、意味のある相関の強い証拠がなくてもVが1になる可能性が高くなります。
CramérのVは、「適合度」のカイ2乗モデル(つまり、c  = 1のモデル)にも適用できます。この場合、それは単一の結果(つまり、 k個の結果のうち)への傾向の尺度として機能します。このような場合、 Vの0から1の範囲を維持するために、  kにrを使用する必要がそれ以外の場合、cを使用すると、方程式はPhiの方程式になります。

コーエンのw
カイ二乗検定に使用される効果量のもう1つの尺度は、コーエンのwです。これは次のように定義されますw = ∑ I =1 m(( p1 I
−p 0 I
)。2 p 0 I
{ w = { sqrt { sum _ {i = 1} ^ {m} { frac {(p_ {1i} -p_ {0i})^ {2}} {p_ {0i}}}}} }
  ここで、p 0iはH0の下のi番目のセルの値、p 1iはH1の下のi番目のセルの値、mはセルの数です。
効果の大きさ w
小さい 0.10 中くらい 0.30 大きい
0.50

オッズ比
オッズ比(OR)は、もう1つの有用な効果量です。調査の質問が2つのバイナリ変数間の関連度に焦点を当てている場合に適しています。たとえば、スペル能力の研究を考えてみましょう。対照群では、失敗した生徒ごとに2人の生徒がクラスに合格するため、合格の確率は2対1(または2/1 = 2)です。治療群では、失敗した生徒1人につき6人の生徒が合格するため、合格の確率は6対1(または6/1 = 6)です。効果量は、治療群の合格確率が対照群の3倍であることに注意することで計算できます(6を2で割った値が3であるため)。したがって、オッズ比は3です。オッズ比の統計はコーエンのdとは異なるスケールであるため、この「3」はコーエンのdの3とは比較できません。

相対危険度
相対リスク(RR)は、リスク比とも呼ばれ、いくつかの独立変数に対するイベントのリスク(確率)です。この効果量の尺度は、オッズではなく確率を比較するという点でオッズ比とは異なりますが、確率が小さい場合は漸近的に後者に近づきます。上記の例を使用すると、対照群と治療群の合格確率は、それぞれ2/3(または0.67)と6/7(または0.86)です。効果量は上記と同じように計算できますが、代わりに確率を使用します。したがって、相対リスクは1.28です。合格の確率がかなり高いため、相対リスクとオッズ比には大きな違いが失敗(より小さな確率)が(通過するのではなく)イベントとして使用された場合、効果量の2つの測定値の差はそれほど大きくありません。
どちらの測定値も有用ですが、統計的な用途は異なります。医学研究では、オッズ比はケースコントロール研究に一般的に使用されます。オッズは通常推定されますが、確率は推定されないためです。相対リスクは、ランダム化比較試験およびコホート研究で一般的に使用されていますが、相対リスクは介入の有効性の過大評価の一因となっています。

リスクの違い
絶対リスク削減と呼ばれることもあるリスク差(RD)は、単に2つのグループ間のイベントのリスク(確率)の差です。RDは、実験的介入がイベントまたは結果の確率をどの程度変化させるかを示すため、これは実験的研究において有用な尺度です。上記の例を使用すると、対照群と治療群の合格確率はそれぞれ2/3(または0.67)と6/7(または0.86)であるため、RD効果量は0.86 − 0.67 = 0.19(または19%)。RDは、介入の有効性を評価するための優れた指標です。

コーエンのh
コーエンのh
2つの独立した比率を比較するときに検出力分析で使用される1つの尺度は、コーエンの hです。これは次のように定義されますh = 2(( アークサイン − アークサイン )。 { h = 2( arcsin { sqrt {p_ {1}}}- arcsin { sqrt {p_ {2}}})}

ここで、p1とp2は、比較される2つのサンプルの比率であり、arcsinはアークサイン変換です。

共通言語の効果量
効果量の意味をより簡単に説明するために、統計の外部の人々に、その名前が示すように、共通言語の効果量は、それを平易な英語で伝えるように設計されました。これは2つのグループの違いを説明するために使用され、1992年にKennethMcGrawとSPWongによって提案され、名前が付けられました。彼らは次の例(男性と女性の身長について)を使用しました。若い成人の男性と女性の中で、男性が女性より背が高い確率は.92であり、簡単に言えば、若い成人の100のブラインドデートのうち92で、男性は女性より背が高くなります」、共通言語効果サイズの母集団値を記述する場合。
一般的な言語効果量の母集団値は、母集団からランダムに選択されたペアの観点から、このように報告されることがよくKerby(2014)は、あるグループのスコアと別のグループのスコアのペアとして定義されるペアは、共通言語の効果量のコアコンセプトであると述べています。
別の例として、治療群に10人、対照群に10人を対象とした科学的研究(関節炎などの慢性疾患の治療)について考えてみます。治療群の全員を対照群の全員と比較すると、(10×10 =)100ペアになります。研究の終わりに、結果は各個人のスコアに評価され(たとえば、関節炎研究の場合、可動性と痛みのスケールで)、次にすべてのスコアがペア間で比較されます。結果は、仮説をサポートするペアのパーセントとして、共通言語の効果量です。例の研究では、100の比較ペアのうち80が対照群よりも治療群の方が良い結果を示した場合、(たとえば).80になる可能性があり、レポートは次のようになります。グループを対照グループの患者と比較したところ、100ペアのうち80ペアで、治療を受けた患者はより良い治療結果を示しました。」サンプル値は、たとえばこのような研究では、母集団値の不偏推定量です。
VarghaとDelaneyは、順序レベルのデータをカバーするために、共通言語の効果量(Vargha-Delaney A )を一般化しました。

ランク-バイシリアル相関
マン・ホイットニーU検定§ランク-バイシリアル相関
共通言語の効果量に関連する効果量は、ランクとバイシリアルの相関関係です。この尺度は、マン・ホイットニーU検定の効果量としてCuretonによって導入されました。つまり、2つのグループがあり、グループのスコアはランクに変換されています。Kerbyの単純差分式は、共通言語の効果量からランクとバイシリアルの相関を計算します。 fを仮説に有利なペアの比率(共通言語効果量)とし、uを不利なペアの比率とすると、ランクバイシリアルrは2つの比率の単純な差です 。r  =  f −u。 _ 言い換えれば、相関関係は、共通言語の効果量とその補集合の差です。たとえば、共通言語の効果量が60%の場合、ランクバイシリアルrは60%から40%を引いた値、つまり r  = 0.20になります。カービーの公式は方向性があり、正の値は結果が仮説を支持することを示します。
ランクとバイシリアルの相関関係の無指向性の公式は、相関関係が常に正になるようにWendtによって提供されました。 Wendtの公式の利点は、公開された論文ですぐに利用できる情報を使用して計算できることです。この式では、マンホイットニーのU検定からのUの検定値と、2つのグループのサンプルサイズのみを使用します:r  = 1 –(2 U)/(n 1  n 2)。Uは、古典的な定義に従って、データから計算できる2つのU値のうち小さい方としてここで定義されていることに注意してこれにより、n 1 n 2がU統計の最大値であるため、2 U  <  n 1 n2が保証されます。
例では、2つの式の使用法を説明できます。20人の高齢者を対象とした健康調査を考えてみましょう。10人が治療群、10人が対照群です。したがって、10の10倍または100のペアが健康プログラムは、食事療法、運動、およびサプリメントを使用して記憶を改善し、記憶は標準化されたテストによって測定されます。マンホイットニーU検定は、治療群の成人の記憶力が100ペアのうち70ペアで良好であり、30ペアで記憶力が低いことを示しています。マンホイットニーのUは70と30の小さい方であるため、U = 30です。Kerbyの単純な差分式による記憶と治療パフォーマンスの相関は、r  =(70/100)−(30/100)= 0.40です。ウェントの式による相関は、r  = 1 −(2・30)/(10・10)= 0.40です。

順序データの効果量
クリフのデルタまたは d { d}

 、元々は順序データで使用するためにNorman Cliffによって開発されたは、1つの分布の値が2番目の分布の値よりも大きい頻度の尺度です。重要なのは、2つの分布の形状や広がりについての仮定を必要としないことです。
サンプル見積もり d { d}

 によって与えられます:d = ∑ j [X I >>Xj ] − [X Im n { d = { frac { sum _ {i、j} [x_ {i}> x_ {j}]-[x_ {i}   ここで、2つの分布のサイズは n { n}

 と m { m}

 アイテム付きX I { x_ {i}}

 とX j { x_ {j}}

 、それぞれ、および
[ ⋅ ] { }

 はアイバーソンの記法です。これは、内容がtrueの場合は1、falseの場合は0です。 d { d}

 マン・ホイットニーU統計に線形に関連しています。ただし、符号の違いの方向を捉えています。マン・ホイットニーを考えると U { U}

 、 d { d}

 は:d = 2 U
mn − 1
{ d = { frac {2U} {mn}}-1}

 

非中心性パラメーターによる信頼区間
標準化された効果量の信頼区間、特にコーエンの d { {d}}

 とf 2
{ {f} ^ {2}}

 、非中心性パラメーター(ncp )の信頼区間の計算に依存します。ncpの信頼区間を構築するための一般的なアプローチは、観測された統計をテール分位数α / 2および(1  −α / 2)に適合させるための臨界ncp値を見つけることです。SASおよびRパッケージMBESSは、ncpの重要な値を見つけるための関数を提供します。

t-単一グループまたは2つの関連グループの平均差を検定します
単一グループの場合、Mはサンプル平均、μは母平均、SDはサンプルの標準偏差、σは母集団の標準偏差、nはグループのサンプルサイズを示します。t値は、平均とベースラインμベースラインの差に関する仮説を検定するために使用され ます。通常、μベースラインはゼロです。2つの関連するグループの場合、単一のグループはサンプルのペアの差によって構成されますが、SDとσは元の2つのグループ内ではなく、サンプルと母集団の差の標準偏差を示します。 t :=M − μ
ベースラインSE = M − μ
ベースラインSD / n = n(( M− μ σ
)。+ n(( μ − μ
ベースライン σ )。SD σ
{ t:= { frac {M- mu _ { text {baseline}}} { text {SE}}} = { frac {M- mu _ { text {baseline}}} { { text {SD}} / { sqrt {n}}}} = { frac {{ sqrt {n}} left({ frac {M- mu} { sigma}} right)+ { sqrt {n}} left({ frac { mu- mu _ { text {baseline}}} { sigma}} right)} { frac { text {SD}} { sigma }}}}

 n c p = n(( μ
ベースライン σ )。
{ ncp = { sqrt {n}} left({ frac { mu- mu _ { text {baseline}}} { sigma}} right)}
  とコーエンの d :=M − μ
ベースライン SD { d:= { frac {M- mu _ { text {baseline}}} { text {SD}}}}
  の点推定ですμ − μ
ベースライン
σ { { frac { mu- mu _ { text {baseline}}} { sigma}}。}
  そう、d 〜 = n c p n { { tilde {d}} = { frac {ncp} { sqrt {n}}}。}

 

2つの独立したグループ間の平均差のt検定
n1またはn2は、それぞれのサンプルサイズです。 t :=M 1 − M 2 SD 以内に/ n
1 n 2 n 1+ n
2 { t:= { frac {M_ {1} -M_ {2}} {{ text {SD}} _ { text {within}} / { sqrt { frac {n_ {1} n_ { 2}} {n_ {1} + n_ {2}}}}}}、}
  ここで SD 以内に
:= SS 以内に df 以内に = (( n1 − 1 )。SD +(( n2 − 1 )。SD n 1 + n2 −
2 { { text {SD}} _ { text {within}}:= { sqrt { frac {{ text {SS}} _ { text {within}}} {{ text {df} } _ { text {within}}}}}} = { sqrt { frac {(n_ {1} -1){ text {SD}} _ {1} ^ {2} +(n_ {2}- 1){ text {SD}} _ {2} ^ {2}} {n_ {1} + n_ {2} -2}}}。}

 n c p = n
1n 2 n 1 +n 2 μ
1− μ
2 σ { ncp = { sqrt { frac {n_ {1} n_ {2}} {n_ {1} + n_ {2}}}} { frac { mu _ {1}- mu _ {2 }} { sigma}}}
  とコーエンの d :=M 1 − M2 D
以内に
{ d:= { frac {M_ {1} -M_ {2}} {SD _ { text {within}}}}}

 の点推定です − μ 2 σ { { frac { mu _ {1}- mu _ {2}} { sigma}}。}
  そう、d 〜 = n cp n 1
n2 1 n 2 { { tilde {d}} = { frac {ncp} { sqrt { frac {n_ {1} n_ {2}} {n_ {1} + n_ {2}}}}}。}

 

複数の独立したグループ間の平均差に対する一元配置分散分析
一元配置分散分析は、非中央F分布を適用します。与えられた母標準偏差で σ { sigma}

 、同じテスト質問が非心カイ二乗分布に適用されます。 F := SS の間にσ 2 / df
の間に SS 以内にσ 2 / df
以内に
{ F:= { frac {{ frac {{ text {SS}} _ { text {between}}} { sigma ^ {2}}} / { text {df}} _ { text {between}}} {{ frac {{ text {SS}} _ { text {within}}} { sigma ^ {2}}} / { text {df}} _ { text {within }}}}}
  i番目のグループ内のj番目のサンプルごとにXi、jは、M I(( X I j )。
:= ∑ w= 1 n 私X I w
n I ; μ I(( X I j )。
:= μ 私 { M_ {i}(X_ {i、j}):= { frac { sum _ {w = 1} ^ {n_ {i}} X_ {i、w}} {n_ {i}}} ; ; mu _ {i}(X_ {i、j}):= mu _ {i}。}
  その間、 SS の間に/ σ 2 = SS(( M I (( X I j )。; I =
1 2 … K j = 1 2 … n I )。 σ 2= SS(( M I (( XI j − μ I )。σ + μ I
σ; I =
1 2 … K j = 1 2 … n I )。 〜 2 (( df=K − 1 n c p= S S(( μI (X
I j)。σ ; I =
1 2 … K j = 1 2 …n I )。)。
{ { begin {aligned} { text {SS}} _ { text {between}} / sigma ^ {2}&= { frac {{ text {SS}} left(M_ {i }(X_ {i、j}); i = 1,2、 dots、K、; j = 1,2、 dots、n_ {i} right)} { sigma ^ {2}}} &= { text {SS}} left({ frac {M_ {i}(X_ {i、j}- mu _ {i})} { sigma}} + { frac { mu _ {i}} { sigma}}; i = 1,2、 dots、K、; j = 1,2、 dots、n_ {i} right)\& sim chi ^ {2} left({ text {df}} = K-1、; ncp = SS left({ frac { mu _ {i}(X_ {i、j})} { sigma}}; i = 1,2、 dots、K、; j = 1,2、 dots、n_ {i} right) right) end {aligned}}}
  したがって、Fのncp(s)とχ 2
{ chi ^ {2}}

 等しい SS (( μI (X
I j)。
/σ ; I =
1 2 … K j = 1 2 …n I )。 { { text {SS}} left( mu _ {i}(X_ {i、j})/ sigma; i = 1,2、 dots、K、; j = 1,2、 dots、n_ {i} right)。}
  の場合には n :=n1 n2 ⋯ = n K { n:= n_ {1} = n_ {2} = cdots = n_ {K}}

 同じサイズのK個の独立したグループの場合、合計サンプルサイズはN  :=  n・Kです。
コーエンズ f 〜 2 := SS (( μ
1 μ
2 … μ K )。
K⋅ σ = SS (( μ I (( X
I j)。/ σ ; I =
1 2 … K j = 1 2 … n I )。n ⋅ K = nc p
n⋅ K = n c p N { { text {Cohens}} { tilde {f}} ^ {2}:= { frac {{ text {SS}}( mu _ {1}、 mu _ {2}、ドット、 mu _ {K})} {K cdot sigma ^ {2}}} = { frac {{ text {SS}} left( mu _ {i}(X_ {i、j} )/ sigma; i = 1,2、 dots、K、; j = 1,2、 dots、n_ {i} right)} {n cdot K}} = { frac {ncp} { n cdot K}} = { frac {ncp} {N}}。}
  独立したグループのペアのt検定は、一元配置分散分析の特殊なケースです。非中心性パラメータに注意してくださいn c p F
{ ncp_ {F}}

 Fのは非中心性パラメータに匹敵しませんn c p t
{ ncp_ {t}}

 対応するtの。実際、n c p F=n c p t 2
{ ncp_ {F} = ncp_ {t} ^ {2}}

 、 とf 〜 = | d〜 2 |
{ { tilde {f}} = left | { frac { tilde {d}} {2}} right |}

 。

も参照してください
推定統計
統計的有意性
Zファクター、効果量の代替尺度

参考文献
^ ケリー、ケン; 説教者、クリストファーJ.(2012)。「効果量について」。心理学的方法。17(2):137–152。土井:10.1037 / a0028086。PMID22545595 。_ S2CID34152884 。_
^ Rosenthal、Robert、H。Cooper、およびL.Hedges。「効果量のパラメトリック測定」。研究統合ハンドブック621(1994):231–244。 ISBN 978-0871541635 
^ Wilkinson、Leland(1999)。「心理学ジャーナルの統計的方法:ガイドラインと説明」。アメリカの心理学者。54(8):594–604。土井:10.1037 /0003-066X.54.8.594。
^ 中川真一; カッチル、イネスC(2007)。「効果量、信頼区間および統計的有意性:生物学者のための実用的なガイド」。ケンブリッジ哲学協会の生物学的レビュー。82(4):591–605。土井:10.1111 /j.1469-185X.2007.00027.x。PMID17944619。_ S2CID615371。_
  
^ Ellis、Paul D.(2010)。効果量の基本ガイド:統計力、メタ分析、および研究結果の解釈。ケンブリッジ大学出版局。ISBN
 978-0-521-14246-5。
^ ブランドA、ブラッドリーMT、ベストLA、ストイカG(2008)。「公表された心理学研究からの効果量推定の精度」(PDF)。知覚および運動スキル。106(2):645–649。土井:10.2466 /PMS.106.2.645-649。PMID18556917。_ S2CID14340449。_ 2008年12月17日にオリジナル(PDF)からアーカイブされました。    ^ ブランドA、ブラッドリーMT、ベストLA、ストイカG(2011)。「複数の試行により、誇張された効果量の推定値が得られる可能性があります」(PDF)。一般心理学ジャーナル。138(1):1–11。土井:10.1080 /00221309.2010.5203​​60。PMID21404946。_ S2CID932324。_   
^ Cohen、Jacob(1988)。行動科学のための統計的検出力分析。ラウトレッジ。ISBN
 978-1-134-74270-7。
^ Sawilowsky、S(2009)。「新しい効果サイズの経験則」。Journal of Modern Applied StatisticsMethods。8(2):467–474。土井:10.22237 / jmasm / 1257035100。 http://digitalcommons.wayne.edu/jmasm/vol8/iss2/26/
^ ラッセルV.レンス。「検出力とサンプルサイズのJavaアプレット」。数理科学部、教養学部またはアイオワ大学。
^ リプシー、MW; etal。(2012)。教育介入の効果の統計的表現をより容易に解釈できる形式に翻訳する(PDF)。米国:米国教育省、国立特別教育研究センター、教育科学研究所、NCSER 2013–3000。
^ Sawilowsky、SS(2005)。「アベルソンのパラドックスとマイケルソン・モーリー実験」。Journal of Modern Applied StatisticsMethods。4(1):352。doi:10.22237 / jmasm / 1114907520。
^ Sawilowsky、S。; Sawilowsky、J。; Grissom、RJ(2010)。”効果の大きさ”。Lovric、M。(ed。)統計科学の国際百科事典。スプリンガー。
^ Sawilowsky、S。(2003)。「仮説検定に反対するケースからの議論の脱構築」。Journal of Modern Applied StatisticsMethods。2(2):467–474。土井:10.22237 / jmasm / 1067645940。
^ コーエン、J(1992)。「パワープライマー」。心理学紀要。112(1):155–159。土井:10.1037 /0033-2909.112.1.155。PMID19565683。_
^ Tabachnick、BG&Fidell、LS(2007)。第4章:「あなたの行為を片付ける。分析の前にデータをスクリーニングする」、p。55 BG Tabachnick&LS Fidell(編)、多変量統計の使用、第5版。ボストン:Pearson Education、Inc。/ Allyn andBacon。
^ Olejnik、S。; アルギン、J。(2003)。「一般化されたイータとオメガの二乗統計:いくつかの一般的な研究デザインの効果量の測定」(PDF)。心理学的方法。8(4):434–447。土井:10.1037 /1082-989x.8.4.434。PMID14664681。_  
^ Steiger、JH(2004)。「F検定を超えて:分散分析とコントラスト分析における効果量の信頼区間と近似の検定」(PDF)。心理学的方法。9(2):164–182。土井:10.1037 /1082-989x.9.2.164。PMID15137887。_  
^ 髪、J。; ハルト、TM; Ringle、CM and Sarstedt、M。(2014) A Primer on Partial Least Squares Structural Equation Modeling(PLS-SEM)、Sage、pp。177–178。 ISBN 1452217440 
^ Larry V. Hedges&Ingram Olkin(1985)。メタ分析のための統計的方法。オーランド:アカデミックプレス。ISBN
 978-0-12-336380-0。
^ ロバートE.マグラス; グレゴリーJ.マイヤー(2006)。「効果量が一致しない場合:rとdの場合」(PDF)。心理学的方法。11(4):386–401。CiteSeerX10.1.1.503.754。_ 土井:10.1037 /1082-989x.11.4.386。PMID17154753。_ 2013-10-08にオリジナル(PDF)からアーカイブされました。    ^ ハルトゥング、ヨアヒム; ナップ、グイド; Sinha、Bimal K.(2008)。アプリケーションを使用した統計メタ分析。ジョン・ワイリー&サンズ。ISBN
 978-1-118-21096-3。
^ ケニー、デビッドA.(1987)。「第13章」(PDF)。社会行動科学の統計。リトル、ブラウン。ISBN  978-0-316-48915-7。
^ Cohen 1988、p。49。
^ ラリーV.ヘッジス(1981)。「Glassの効果量の推定量と関連する推定量の分布理論」。教育統計ジャーナル。6(2):107–128。土井:10.3102 / 10769986006002107。S2CID121719955。_
^ l Giudice、Marco(2013-07-18)。「多変量の不安:Dはグループと性差の有効な尺度ですか?」。進化心理学。11(5):147470491301100。doi : 10.1177 / 147470491301100511。
^ Aaron、B.、Kromrey、JD、およびFerron、JM(1998年11月)。rベースとdベースの効果量指数の同等化:一般的に推奨される式の問題。フロリダ州オーランドで開催されたフロリダ教育研究協会の年次総会で発表された論文。(ERIC文書複製サービス番号ED433353)
^ Sheskin、David J.(2003)。パラメトリックおよびノンパラメトリック統計手法のハンドブック(第3版)。CRCプレス。ISBN
 978-1-4200-3626-8。
^ ディークスJ(1998)。「オッズ比はいつ誤解を招く可能性がありますか?:オッズ比は、ケースコントロール研究とロジスティック回帰分析でのみ使用する必要があります」。BMJ。317(7166):1155–6。土井:10.1136 /bmj.317.7166.1155a。PMC1114127。_ PMID9784470。_
  
^ Stegenga、J。(2015)。「有効性の測定」。生物医科学の歴史と哲学の研究。54:62–71。土井:10.1016 /j.shpsc.2015.06.003。PMID26199055。_
^ McGraw KO、Wong SP(1992)。「一般的な言語効果量の統計」。心理学紀要。111(2):361–365。土井:10.1037 /0033-2909.111.2.361。
^ Kerby、DS(2014)。「単純な差の公式:ノンパラメトリック相関を教えるためのアプローチ」。包括的な心理学。3:記事1。doi:10.2466 /11.IT.3.1。
^ Grissom RJ(1994)。「治療後の通常のカテゴリー状態の統計分析」。Journal of Consulting and ClinicalPsychology。62(2):281–284。土井:10.1037 /0022-006X.62.2.281。PMID8201065。_
^ Vargha、András; デラニー、ハロルドD.(2000)。「McGrawとWongのCL共通言語効果量統計の批評と改善」。Journal of Educational and BehavioralStatistics。25(2):101–132。土井:10.3102 / 10769986025002101。S2CID120137017。_
^ キュアトン、EE(1956)。「ランク-バイシリアル相関」。サイコメトリカ。21(3):287–290。土井:10.1007 / BF02289138。S2CID122500836。_
^ ウェント、HW(1972)。「社会科学における一般的な問題への対処:U統計に基づく単純化されたランク-バイシリアル相関係数」。社会心理学のヨーロッパジャーナル。2(4):463–465。土井:10.1002 /ejsp.2420020412。
^ クリフ、ノーマン(1993)。「ドミナンス統計:順序質問に答えるための順序分析」。心理学紀要。114(3):494–509。土井:10.1037 /0033-2909.114.3.494。

参考文献
Aaron、B.、Kromrey、JD、およびFerron、JM(1998年11月)。rベースとdベースの効果量指数の同等化:一般的に推奨される式の問題。フロリダ州オーランドで開催されたフロリダ教育研究協会の年次総会で発表された論文。(ERIC文書複製サービス番号ED433353)
ボネット、DG(2008)。「平均の標準化された線形コントラストの信頼区間」。心理学的方法。13(2):99–109。土井:10.1037 /1082-989x.13.2.99。PMID18557680 。_
ボネット、DG(2009)。「平均の標準化された線形コントラストを望ましい精度で推定する」。心理学的方法。14(1):1–5。土井:10.1037 / a0014270。PMID19271844 。_
メイン州ブルックス; ダラル、DK; ノーラン、KP(2013)。「一般的な言語の効果量は、従来の効果量よりも理解しやすいですか?」応用心理学ジャーナル。99(2):332–340。土井:10.1037 / a0034745。PMID24188393 。_
カミング、G。; フィンチ、S。(2001)。「中央および非中央分布に基づく信頼区間の理解、使用、および計算に関する入門書」。教育的および心理的測定。61(4):530–572。土井:10.1177 / 0013164401614002。S2CID120672914 。_
ケリー、K(2007)。「標準化された効果量の信頼区間:理論、適用、および実装」。統計ソフトウェアジャーナル。20(8):1–24。土井:10.18637 /jss.v020.i08。
リプシー、MW、およびウィルソン、DB(2001)。実用的なメタ分析。セージ:カリフォルニア州サウザンドオークス。

外部リンク
ウィキバーシティには、効果量に関する学習リソースがあります
さらなる説明
効果量(ES) EffectSizeFAQ.com 効果量プロットを生成するためのEstimationStats.comWebアプリ。
効果量の測定
ViStaを使用した効果量測定の計算と解釈
統計計算のためのRプロジェクトのeffsizeパッケージ”