割った余り

主に統計学の勉強メモ

2019年統計検定1級応用(理工学)問5答案

表1: 地域Cの血液型分布(観測度数)

血液型 O型 A型 B型 AB型 合計
観測度数 24 48 16 12 100

小問[1]

帰無仮説


O型:A型:B型:AB型 = 3:4:2:1

とする。


\begin{aligned}
検定統計量の実現値 &=\frac{(24-30)^{2}}{30}+\frac{(48-40)^{2}}{40}+\frac{(16-20)^{2}}{20}+\frac{(12-10)^{2}}{10} \\
&=\frac{36}{30}+\frac{64}{40}+\frac{16}{20}+\frac{4}{10} \\
&=1.2+1.6+0.8+0.2 \\
&=4.0
\end{aligned}

である。
この検定統計量は帰無仮説のもとで漸近的に自由度 4-1=3カイ二乗分布に従う。


自由度3のカイ二乗分布の上側5\%点 = 7.81

であり、


4.0 < 7.81

より、帰無仮説は棄却できない。

小問[2]

期待度数は観測度数合計 6k + 12k + 4k + 3k = 25k帰無仮説のもとでの分配数なのでそれぞれ


25k \times \frac{3}{10} : 25k \times \frac{4}{10} : 25k \times \frac{2}{10} : 25k \times \frac{1}{10} = 7.5k : 10k : 5.0k : 2.5k

である。よって


\begin{aligned}
検定統計量の実現値&=\frac{(6k- 7.5k)^{2}}{7.5k}+\frac{(12 k-10 k)^{2}}{10 k}+\frac{(4 k-5 k)^{2}}{5 k}+\frac{(3k -2.5k)^{2}}{2.5 k} \\
&=k\left\{\frac{(-1.5)^{2}}{7.5}+\frac{2^{2}}{10}+\frac{(-1)^{2}}{5}+\frac{(0.5)^{2}}{2.5}\right\} \\
&=k 
\end{aligned}

である。
よって有意水準 5\%で有意になるには


\begin{aligned}
k > 7.81
\end{aligned}

である必要がある。
なので有意水準 5\%で有意になる最小の k 8である。

小問[3]

 n件のデータが K個のカテゴリーのいずれかに分類されるとする。
データの 1 1件は互いに独立にそれぞれ


\begin{aligned}
\pi_{1}, \pi_{2}, \ldots, \pi_{K}
\end{aligned}

の確率でそれぞれ


\begin{aligned}
X_{1}, X_{2}, \dots, X_{K}
\end{aligned}

の件数に分類されるとする。すなわち


\begin{aligned}
&\pi_{1}+\pi_{2}+\ldots+\pi_{K}=1\\
&X_{1}+X_{2}+\dots+X_{K}=n
\end{aligned}

である。
このとき適合度カイ二乗検定統計量 Q


\begin{aligned}
Q=\sum_{i=1}^{K} \frac{\left(X_{i}-n \pi_{i}\right)^{2}}{n \pi_{i}}
\end{aligned}

と表せる。


\begin{aligned}
\frac{\left(X_{K}-n \pi_{K}\right)^{2}}{n \pi_{K}} &=\frac{\left(n- 
\displaystyle \sum_{i=1}^{K-1} X_{i}-n+n \displaystyle \sum_{i=1}^{K-1} \pi_{i}\right)^{2}}{n \pi_{K}} \\
&=\frac{n}{\pi_{K}}\left\{\sum_{i=1}^{K-1}\left(\pi_{i}-\frac{X_{i}}{n}\right)\right\}^{2} \\
&=\frac{n}{\pi_{K}}\left\{\sum_{i=1}^{K-1}\left(\frac{X_{i}}{n}-\pi_{i}\right)^{2}+\sum_{i \neq j}\left(\frac{X_{i}}{n}-\pi_{i}\right)\left(\frac{X_{j}}{n}-\pi_{j}\right)\right\}
\end{aligned}

より、


\begin{aligned}
Q &=\sum_{i=1}^{K-1}\left\{\frac{1}{\pi_{i}} n\left(\frac{X_{i}}{n}-\pi_{i}\right)^{2} \right\}+\frac{\left(X_{K} - n\pi_{K}\right)^{2}}{n \pi_{K}} \\
&= \sum_{i=1}^{K-1}\left\{\left(\frac{1}{\pi_{i}}+\frac{1}{\pi_{K}}\right) n\left(\frac{X_{i}}{n}-\pi_{i}\right)^{2}\right\} +\frac{1}{\pi_{K}} \sum_{i \neq j} n\left(\frac{X_{i}}{n}-\pi_{i}\right)\left(\frac{X_{j}}{n}-\pi_{j}\right) \\
&= \left [\sqrt{n}\left(\frac{X_{1}}{n}-\pi_{1}\right), \sqrt{n}\left(\frac{X_{2}}{n}-\pi_{2}\right),\cdots, \sqrt{n}\left(\frac{X_{K-1}}{n}-\pi_{K-1}\right)\right ] \\
& \times \left[\begin{array}{ccccc}
{\frac{1}{\pi_{1}}+\frac{1}{\pi_{K}}} & {\frac{1}{\pi_{K}}} & {\frac{1}{\pi_{K}}} & {\cdots} & {\frac{1}{\pi_{K}}} \\
{\frac{1}{\pi_{K}}} & {\frac{1}{\pi_{2}}+\frac{1}{\pi_{K}}} & {\frac{1}{\pi_{K}}} & {\cdots} & {\frac{1}{\pi_{K}}} \\
{\vdots} & {\vdots} & {\vdots} & {\vdots} & {\vdots} \\
{\frac{1}{\pi_{K}}} & {\frac{1}{\pi_{K}}} & {\frac{1}{\pi_{K}}} & {\cdots} & {\frac{1}{\pi_{K}}} \\
{\frac{1}{\pi_{K}}} & {\frac{1}{\pi_{K}}} & {\frac{1}{\pi_{K}}} & {\cdots} & {\frac{1}{\pi_{K-1}}+\frac{1}{\pi_{K}}}\end{array}\right] \\
& \times \left[\begin{array}{c}
{\sqrt{n}\left(\frac{X_{1}}{n}-\pi_{1}\right)} \\
{\sqrt{n}\left(\frac{X_{2}}{n}-\pi_{2}\right)} \\
{\vdots} \\
{\sqrt{n}\left(\frac{X_{K-1}}{n}-\pi_{K-1}\right)}
\end{array}\right] \\
& = Z^{\prime} A Z
\end{aligned}

と表せる。ここで


\begin{aligned}
Z &=  \left[\begin{array}{c}
{\sqrt{n}\left(\frac{X_{1}}{n}-\pi_{1}\right)} \\
{\sqrt{n}\left(\frac{X_{2}}{n}-\pi_{2}\right)} \\
{\vdots} \\
{\sqrt{n}\left(\frac{X_{K-1}}{n}-\pi_{K-1}\right)}
\end{array}\right]
\end{aligned}


\begin{aligned}
A &= \left[\begin{array}{ccccc}
{\frac{1}{\pi_{1}}+\frac{1}{\pi_{K}}} & {\frac{1}{\pi_{K}}} & {\frac{1}{\pi_{K}}} & {\cdots} & {\frac{1}{\pi_{K}}} \\
{\frac{1}{\pi_{K}}} & {\frac{1}{\pi_{2}}+\frac{1}{\pi_{K}}} & {\frac{1}{\pi_{K}}} & {\cdots} & {\frac{1}{\pi_{K}}} \\
{\vdots} & {\vdots} & {\vdots} & {\vdots} & {\vdots} \\
{\frac{1}{\pi_{K}}} & {\frac{1}{\pi_{K}}} & {\frac{1}{\pi_{K}}} & {\cdots} & {\frac{1}{\pi_{K}}} \\
{\frac{1}{\pi_{K}}} & {\frac{1}{\pi_{K}}} & {\frac{1}{\pi_{K}}} & {\cdots} & {\frac{1}{\pi_{K-1}}+\frac{1}{\pi_{K}}}\end{array}\right] 
\end{aligned}

と置いた。 Z (K-1) \times 1のベクトルで A (K-1) \times (K-1)の行列である。すなわち Aの要素 a_{i j}


\begin{aligned}
\{a_{i j}\} = \left\{\begin{array}{ll}
{\frac{1}{\pi_{1}}+\frac{1}{\pi_{K}}} \quad {(i=i)} \\
{\frac{1}{\pi_{K}}} \quad (i \neq j) 
\end{array}\right.
\end{aligned}

である。( i, j = 1, 2, \cdots K-1)
また、( \prime)は転置を意味する。
一方


\begin{aligned}
X=\left [\begin{array}{c}
{X_{1}} \\
{\vdots} \\
{X_{K-1}}
\end{array}\right]
\end{aligned}

について


\begin{aligned}
& E\left [X_{i}\right ]=n \pi_{i} \quad (i=1,2, \ldots, K-1) \\
& V\left [X_{i}\right ]=n \pi_{i}\left(1-\pi_{i}\right) \quad (i=1,2, \ldots, K-1) \\
& Cov\left(X_{i}, X_{j}\right)=-n \pi_{i} \pi_{j} \quad (i \neq j) \\
& (i,j = 1, 2, \ldots, K-1)
\end{aligned}

である。
ここで、


\begin{aligned}
Z_{i}=\sqrt{n}\left(\frac{X_{i}}{n}-\pi_{i} \right)
\end{aligned}

 X_{i}を変換した Z_{i}について


\begin{aligned}
& E[Z_{i}]= 0 \quad (i=1,2, \ldots, K-1) \\
& V\left[Z_{i}\right] = \frac{n}{n^{2}} n \pi_{i}(1-\pi_{i}) = \pi_{i}\left(1-\pi_{i} \right) \quad (i=1,2, \ldots, K-1)\\
& Cov\left(Z_{i}, Z_{j}\right) = Cov\left(\frac{\sqrt{n}}{n} X_{i}-\pi_{i}, \frac{\sqrt{n}}{n} X_{j}-\pi_{j}\right) =\frac{n}{n^{2}} Cov\left(X_{i}, X_{j}\right)=-\pi_{i} \pi_{j} (i \neq j) \\
& (i, j=1,2, \ldots, K-1)
\end{aligned}

である。よって中心極限定理より


Z \rightarrow N(0, \Sigma) \quad (n \rightarrow \infty)

 Zは多変量正規分布に分布収束する。ここで (K-1) \times (K-1)の分散共分散行列 \Sigmaの要素 \sigma_{ij}


\begin{aligned}
\{\sigma_{i j}\} = \left\{\begin{array}{ll}
{\pi_{i}\left(1-\pi_{i}\right)} \quad {(i=i)} \\
{-\pi_{i}}{\pi_{j}} \quad (i \neq j) 
\end{array}\right.
\end{aligned}

である。( i, j = 1, 2, \cdots K-1)
次に A逆行列 \Sigmaであることを示す。
 A \Sigmaの積の要素を \{b_{i j}\}とする。
 i = jのとき


\begin{aligned}
b_{i i} &=\sum_{k=1}^{K-1}\left\{a_{i k} \sigma_{k i} \right \} \\
&=\frac{1}{\pi_{K}} \times \left(-\pi_{1} \pi_{i}\right)+\frac{1}{\pi_{K}} \times \left(-\pi_{2} \pi_{i}\right) \\
&+\cdots+\left(\frac{1}{\pi_{i}}+\frac{1}{\pi_{K}}\right) \times \pi_{i}\left(1-\pi_{i}\right) \\
&+\cdots+\frac{1}{\pi_{K}} \times \left(-\pi_{K-1} \pi_{i}\right) \\
&=\frac{\pi_{i}}{\pi_{K}} \times (-1) \times\left(\pi_{1}+\pi_{2}+\cdots+\pi_{K-1}\right) \\
&+(1-\pi_{i}) + \frac{\pi_{i}}{\pi_{K}} \\
&= 1 - \pi_{i} + \frac{\pi_{i}}{\pi_{K}}\pi_{K} = 1
\end{aligned}

であり、
 i \neq jのとき


\begin{aligned}
b_{i j} &=\sum_{k=1}^{K-1}\left\{a_{i k} \sigma_{k j} \right\} \\
&=\sum_{k\neq i,j}\{\frac{1}{\pi_{K}} \times \left(-\pi_{k}\pi_{j}\right) \} +\left(\frac{1}{\pi_{i}}+\frac{1}{\pi_{K}}\right) \times \left(-\pi_{i}\pi_{j} \right) \\
&+\frac{1}{\pi_{K}} \times \pi_{j}\left(1-\pi_{j}\right) \\
&=\sum_{k = 1}^{K-1} \{\frac{1}{\pi_{K}} \times \left(-\pi_{k} \pi_{j}\right) \}-\pi_{j}+\frac{\pi_{j}}{\pi_{K}} \\
&=-\frac{\pi_{j}}{\pi_{K}} \underbrace{\sum_{k=1}^{K-1} \pi_{k}}_{1-\pi_{K}}+\frac{\pi_{j}}{\pi_{K}}\left(1-\pi_{K}\right) = 0
\end{aligned}

である。よって A逆行列 \Sigmaである。
 \Sigmaは分散共分散行列なので対称半正定値であり*1逆行列が存在するので対称正定値である。
よって \Sigmaに対して


\begin{aligned}
C^{\prime} \Sigma C=I
\end{aligned}

を満たす (K-1) \times (K-1)の非特異行列 Cが存在する。*2
ここで


\begin{aligned}
Y = C^{\prime}Z
\end{aligned}

Zを線形変換すると、


\begin{aligned}
E[Y] = 0
\end{aligned}

\begin{aligned}
V[Y] &= E\left[YY^{\prime}\right] \\
&= E\left[C^{\prime} ZZ^{\prime}C\right] \\
&= C^{\prime} E\left[ZZ^{\prime}\right]C \\
&= C^{\prime}\Sigma C = I
\end{aligned}

であり、多変量正規分布の線形変換は多変量正規分布に従うので、


\begin{aligned}
Y \rightarrow N(0, I) \quad (n \rightarrow \infty)
\end{aligned}

である。従って、


\begin{aligned}
Y^{\prime}Y \rightarrow \chi^{2} (K-1) \quad (n \rightarrow \infty)
\end{aligned}

 Y^{\prime}Yは漸近的に自由度 K -1カイ二乗分布に従う。
また、


\begin{aligned}
& {C^{\prime} \Sigma C=I} \\
& {\Sigma = \left(C^{\prime}\right)^{-1}(C)^{-1}} \\
& {\Sigma^{-1}=CC^{\prime}}
\end{aligned}

より、


\begin{aligned}
Y^{\prime} Y &= Z^{\prime} C C^{\prime} Z \\
&= Z^{\prime} \Sigma^{-1} Z \\
&= Z^{\prime} A Z = Q
\end{aligned}

なので、


\begin{aligned}
Q \rightarrow \chi^{2} (K-1) \quad (n \rightarrow \infty)
\end{aligned}

と適合度カイ二乗検定統計量 Qは漸近的に自由度 K -1カイ二乗分布に従う。
 \Box

小問[4]-1

表2: 遺伝子を考慮した血液型分布

血液型 O型 A型 B型 AB型
遺伝子型 OO AA
AO
OA
BB
BO
OB
AB
BA
比率  r^{2}  p^{2} + 2pr  q^{2} + 2qr  2pq
  • 遺伝子O、A、B はそれぞれ r, p, q (r + p + q = 1)の比率で分布しているとする。全観測度数を Nとし、各血液型の観測度数をそれぞれ n_{O}, n_{B}, n_{AB}、各遺伝子型の度数を f_{OO}, f_{AA}, f_{AO}, f_{BB}, f_{BO}, f_{AB}, とする。( f_{AO},  f_{BO}, f_{AB}はそれぞれAOとOA、BOとOB、ABとBA、の合計度数である)。このとき、 f_{OO} = n_{o}, f_{AA} + f_{AO} = n_{A}, f_{BB} + f_{BO} = n_{B}, f_{AB} = n_{AB}であり、 f_{AA}, f_{AO}, f_{BB}, f_{BO},は実際は観測されない度数である。度数を f_{OO}, f_{AA}, f_{AO}, f_{BB}, f_{BO}, f_{AB}, に基づく尤度関数は、 r,p,q,に依存しない定数を無視すると、


\begin{aligned}
L(r, p, q) \propto\left(r^{2}\right)^{f_{OO}}(p^{2})^{f_{AA}}(2pr)^{f_{AO}}(q^{2})^{f_{BB}}\left(2qr\right)^{f_{BO}}(2pq)^{f_{AB}}
\end{aligned}

となる。


\begin{aligned}
Q=\ln L(r, p, q)-\lambda(r+r+q-1)
\end{aligned}

 r, p, q,でそれぞれ偏微分して 0と置き、 L(r, p, q)を最大化する r, p, q,の値を求める式を示す。
 r,p,q,に依存しない定数を Cとすると、


\begin{aligned}
Q &= {\ln C + 2f_{OO} \ln r+ f_{AO} \ln p + f_{AO} \ln r} \\
 & {+ f_{AO} \ln 2 + 2 f_{BB}\ln q + 2 f_{AA} \ln p} \\
 & {+f_{BO} \ln q + f_{B0} \ln r +f_{BO} \ln 2} \\
 & {+f_{AB} \ln p + f_{AB} \ln q + f_{AB} \ln 2} \\
 & {-\lambda(r+p+q-1)}
\end{aligned}

なので、


\begin{aligned}
&\frac{\partial Q}{\partial r}=\frac{2 f_{OO}}{r}+\frac{f_{AB}}{r}+\frac{f_{BO}}{r}-\lambda=0\\
&\frac{\partial Q}{\partial p}=\frac{f_{AO}}{p}+\frac{f_{AB}}{p}+\frac{2 f_{AA}}{P}-\lambda = 0\\
&\frac{\partial Q}{\partial q}=\frac{2 f_{BB}}{q}+\frac{f_{BO}}{q}+\frac{f_{AB}}{q} - \lambda = 0\\
\end{aligned}


\begin{aligned}
\lambda(r+p+q) &= 2f_{OO}+f_{AO}+f_{BO} \\
&+ f_{AO} + f_{AB} + 2 f_{AA} \\
&+ 2 f_{BB} + f_{BO} + f_{AB} \\
\lambda &= 2 n_{O} + 2 n_{A} + 2 n_{B} + 2 n_{AB} = 2N \\
\end{aligned}

より、 L(r, p, q)を最大化する r, p, q,の値を求める式は L(r, p, q)を最大化する r, p, q,の値をそれぞれ \hat{r}, \hat{p}, \hat{q}と置くと、


\begin{aligned}
{\hat{r}=\frac{2 f_{OO} + f_{AO} + f_{BO}}{2 N}} \\
{\hat{p}=\frac{2 f_{AA} + f_{AO} + f_{AB}}{2 N}} \\
\hat{q}=\frac{2 f_{BB} + f_{BO} + f_{AB}}{2 N}
\end{aligned}

と表せる。

小問[4]-2

  • 小問[4]-1で求めた \hat{r}, \hat{p}, \hat{q}を用いて度数 f_{AA}, f_{AO}, f_{BO}, f_{BB},の期待値を求める式を示す。

 f_{AA} + f_{AO} = n_{A}, f_{BB} + f_{BO} = n_{B}であることに注意すると


\begin{aligned}
& {\hat{f}_{AB}=N(\hat{p})^{2}} \\
& {\hat{f}_{AO}=n_{A}-\hat{f}_{AB} = n_{A} - N(\hat{p})^{2}} \\
& {\hat{f}_{BB}=N(\hat{q})^{2}} \\
& {\hat{f}_{BO}=n_{B}-\hat{f}_{BB} = n_{B} - N(\hat{q})^{2}}
\end{aligned}

のようにそれぞれの期待値の推定式が求まる。


誤り等ご指摘いただけるとありがたいです。

*1:線形代数の定理3・・・いずれ証明したい。

*2:線形代数の定理2・・・いずれ証明したい。