2019年統計検定1級応用(理工学)問5答案
表1: 地域Cの血液型分布(観測度数)
| 血液型 | O型 | A型 | B型 | AB型 | 合計 |
|---|---|---|---|---|---|
| 観測度数 | 24 | 48 | 16 | 12 | 100 |
小問[3]
件のデータが
個のカテゴリーのいずれかに分類されるとする。
データの件
件は互いに独立にそれぞれ
の確率でそれぞれ
の件数に分類されるとする。すなわち
である。
このとき適合度カイ二乗検定統計量は
と表せる。
より、
と表せる。ここで
と置いた。は
のベクトルで
は
の行列である。すなわち
の要素
は
である。()
また、()は転置を意味する。
一方
について
である。
ここで、
とを変換した
について
である。よって中心極限定理より
とは多変量正規分布に分布収束する。ここで
の分散共分散行列
の要素
は
である。()
次にの逆行列が
であることを示す。
と
の積の要素を
とする。
①のとき
であり、
②のとき
である。よっての逆行列は
である。
は分散共分散行列なので対称半正定値であり*1、逆行列が存在するので対称正定値である。
よってに対して
を満たすの非特異行列
が存在する。*2
ここで
とを線形変換すると、
であり、多変量正規分布の線形変換は多変量正規分布に従うので、
である。従って、
とは漸近的に自由度
のカイ二乗分布に従う。
また、
より、
なので、
小問[4]-1
表2: 遺伝子を考慮した血液型分布
| 血液型 | O型 | A型 | B型 | AB型 |
| 遺伝子型 | OO | AA AO OA |
BB BO OB |
AB BA |
| 比率 |
- 遺伝子O、A、B はそれぞれ
の比率で分布しているとする。全観測度数を
とし、各血液型の観測度数をそれぞれ
、各遺伝子型の度数を
とする。(
はそれぞれAOとOA、BOとOB、ABとBA、の合計度数である)。このとき、
であり、
は実際は観測されない度数である。度数を
に基づく尤度関数は、
に依存しない定数を無視すると、
となる。
- ラグランジュの未定乗数を
とした
をでそれぞれ偏微分して
と置き、
を最大化する
の値を求める式を示す。
に依存しない定数を
とすると、
なので、
より、を最大化する
の値を求める式は
を最大化する
の値をそれぞれ
と置くと、
と表せる。
小問[4]-2
- 小問[4]-1で求めた
を用いて度数
の期待値を求める式を示す。
であることに注意すると
のようにそれぞれの期待値の推定式が求まる。
誤り等ご指摘いただけるとありがたいです。