有効なサンプルサイズ


Effective_sample_size
を デザインエフェクトにマージすることをお
統計では、有効なサンプルサイズは、サンプル内の観測値が相関または重み付けされている場合に、分布からのサンプルに対して定義された概念です。1965年、レスリーキシュは、サンプルが単純ランダムサンプルである場合と比較して、現在のサンプリング設計からの分散を反映するために、元のサンプルサイズを設計効果で割ったものとして定義しました :162、259 

コンテンツ
1 相関する観察
2 重み付けされたサンプル
3 参考文献
4 参考文献
5 も参照してください

相関する観察
いくつかの独立した同一分布の観測値のサンプルを想定します Y 1 … Y n { Y_ {1}、 dots、Y_ {n}}

 平均の分布から抽出されます μ { mu}

 および標準偏差 σ { sigma}

 。次に、この分布の平均は、サンプルの平均によって推定されます。μ ^ = 1 n ∑ I= 1 n Y
I { { hat { mu}} = { frac {1} {n}} sum _ {i = 1} ^ {n} Y_ {i}。}
  その場合、μ
^ { { hat { mu}}}

 によって与えられます Var (( μ ^ )。 = σ2
{ operatorname {Var}({ hat { mu}})= { frac { sigma ^ {2}} {n}}}
  ただし、サンプルの観測値が(クラス内相関の意味で)相関している場合は、 Var (( μ ^ )。
{ operatorname {Var}({ hat { mu}})}

 やや高いです。たとえば、サンプル内のすべての観測値が完全に相関している場合( ρ(( I j
)。 1
{ rho _ {(i、j)} = 1}

 )、 それから Var (( μ ^ )。= σ 2
{ operatorname {Var}({ hat { mu}})= sigma ^ {2}}

 かかわらず n { n}

 。
有効なサンプルサイズn eff
{ n _ { text {eff}}}

 は、次のような一意の値(必ずしも整数である必要はありません)です。 Var (( μ ^ )。= σ 2 n
eff { operatorname {Var}({ hat { mu}})= { frac { sigma ^ {2}} {n _ { text {eff}}}}。}

 n eff
{ n _ { text {eff}}}

 は、サンプルの観測値間の相関の関数です。
すべての(自明ではない)相関が同じであり、− 1 /(( n− 1 )。 { -1 /(n-1)}

 、つまりI ≠ j
{ i neq j}

 、 それから ρ (( I j )。 = ρ >>− 1 /(( n− 1 )。 { rho _ {(i、j)} = rho> -1 /(n-1)}
-1/(n-1)}””>
 。それで Var (( μ
^)。= Var(( 1n Y 1 + 1
nY 2 + ⋯ +1 n Y n
)。= ∑ I=1 1n 2 Var(( Y I )。+ ∑ I=1 ∑ j = 1 j ≠I 1 n 2 Cov(( YI Y j
)。= n σ
2n 2 + n(( n − 1
)。σ 2
ρ 2 = σ2 1 + (( n− 1
)。 ρ n { { begin {aligned} operatorname {Var}({ hat { mu}})&= operatorname {Var} left({ frac {1} {n}} Y_ {1} + { frac {1} {n}} Y_ {2} + cdots + { frac {1} {n}} Y_ {n} right)\ &= sum _ {i = 1} ^ {n} { frac {1} {n ^ {2}}} operatorname {Var}(Y_ {i})+ sum _ {i = 1} ^ {n} sum _ {j = 1、j neq i} ^ {n} { frac {1} {n ^ {2}}} operatorname {Cov}(Y_ {i}、Y_ {j})\ &= n { frac { sigma ^ {2}} {n ^ {2}}} + n(n-1){ frac { sigma ^ {2} rho} {n ^ {2}}} \ &= sigma ^ {2} { frac {1+(n-1) rho} {n}}。 end {aligned}}}

したがってn eff = n
1 + (( n− 1 )。 ρ { n _ { text {eff}} = { frac {n} {1+(n-1) rho}}。}
  の場合ρ = 0
{ rho = 0}

 、 それからn eff= n { n _ { text {eff}} = n}

 。同様に、ρ = 1
{ rho = 1}

 それからn eff 1
{ n _ { text {eff}} = 1}

 。で、もし− 1 /(( n− 1
)。< ρ < 0
{ -1 /(n-1)< rho <0}

 それから n eff>> n { n _ { text {eff}}> n}
n}””>
 。
相関が均一でない場合は、もう少し複雑です。相関が負の場合、有効なサンプルサイズが実際のサンプルサイズよりも大きくなる可能性があることに注意してより一般的な形式を許可する場合μ ^ = ∑ I=1 n a I y I { { hat { mu}} = sum _ {i = 1} ^ {n} a_ {i} y_ {i}}

 (どこ∑ I = 1 na I 1
{ sum _ {i = 1} ^ {n} a_ {i} = 1}

 )次に、次のような相関行列を作成することができます。 n eff>> n { n _ { text {eff}}> n}
n}””>
 すべての相関が正の場合でも。直感的に、の最大値n eff
{ n _ { text {eff}}}

 係数のすべての選択にわたってa I
{ a_ {i}}

 観測データの情報量と考えることができます。

重み付けされたサンプル
データが重み付けされている場合(重みを正規化する必要はありません。つまり、合計が1またはn、またはその他の定数に等しい場合)、サンプルを構成するいくつかの観測値が、実質的に100%の相関で分布から取得されています。以前のサンプルで。この場合、効果はキッシュの有効サンプルサイズとして知られています :162、259 n eff = n
D eff =n w 2 ¯ w¯2 = n 1 n∑ I=1 w I 2 (( 1n ∑
I= 1 n w I
)。2 = n n ∑ I =1 w I 2 (( ∑ I =1 w I
)。2 =(( ∑
I= 1 n w I
)。2 ∑
I= 1 n w I 2 { n _ { text {eff}} = { frac {n} {D _ { text {eff}}}} = { frac {n} { frac { overline {w ^ {2}}} {{ overline {w}} ^ {2}}}} = { frac {n} { frac {{ frac {1} {n}} sum _ {i = 1} ^ {n} w_ { i} ^ {2}} { left({ frac {1} {n}} sum _ {i = 1} ^ {n} w_ {i} right)^ {2}}}} = { frac {n} { frac {n sum _ {i = 1} ^ {n} w_ {i} ^ {2}} {( sum _ {i = 1} ^ {n} w_ {i})^ {2}}}} = { frac {( sum _ {i = 1} ^ {n} w_ {i})^ {2}} { sum _ {i = 1} ^ {n} w_ {i } ^ {2}}}}}

 

参考文献
^ トムレンスター
「有効なサンプルサイズ」。
^ キシュ、レスリー(1965)。「調査サンプリング」。ニューヨーク:John Wiley&Sons、Inc。ISBN  0-471-10949-5 。
^ 「デザイン効果と有効なサンプルサイズ」。

参考文献
MB、プリーストリー(1981)、スペクトル分析と時系列1、アカデミックプレス、§5.3。

も参照してください
デザイン効果”