2019年統計検定1級応用(理工学)問5答案
表1: 地域Cの血液型分布(観測度数)
血液型 | O型 | A型 | B型 | AB型 | 合計 |
---|---|---|---|---|---|
観測度数 | 24 | 48 | 16 | 12 | 100 |
小問[3]
件のデータが個のカテゴリーのいずれかに分類されるとする。
データの件件は互いに独立にそれぞれ
の確率でそれぞれ
の件数に分類されるとする。すなわち
である。
このとき適合度カイ二乗検定統計量は
と表せる。
より、
と表せる。ここで
と置いた。はのベクトルではの行列である。すなわちの要素は
である。()
また、()は転置を意味する。
一方
について
である。
ここで、
とを変換したについて
である。よって中心極限定理より
とは多変量正規分布に分布収束する。ここでの分散共分散行列の要素は
である。()
次にの逆行列がであることを示す。
との積の要素をとする。
①のとき
であり、
②のとき
である。よっての逆行列はである。
は分散共分散行列なので対称半正定値であり*1、逆行列が存在するので対称正定値である。
よってに対して
を満たすの非特異行列が存在する。*2
ここで
とを線形変換すると、
であり、多変量正規分布の線形変換は多変量正規分布に従うので、
である。従って、
とは漸近的に自由度のカイ二乗分布に従う。
また、
より、
なので、
小問[4]-1
表2: 遺伝子を考慮した血液型分布
血液型 | O型 | A型 | B型 | AB型 |
遺伝子型 | OO | AA AO OA |
BB BO OB |
AB BA |
比率 |
- 遺伝子O、A、B はそれぞれの比率で分布しているとする。全観測度数をとし、各血液型の観測度数をそれぞれ、各遺伝子型の度数をとする。(はそれぞれAOとOA、BOとOB、ABとBA、の合計度数である)。このとき、であり、は実際は観測されない度数である。度数をに基づく尤度関数は、に依存しない定数を無視すると、
となる。
- ラグランジュの未定乗数をとした
をでそれぞれ偏微分してと置き、を最大化するの値を求める式を示す。
に依存しない定数をとすると、
なので、
より、を最大化するの値を求める式はを最大化するの値をそれぞれと置くと、
と表せる。
小問[4]-2
- 小問[4]-1で求めたを用いて度数の期待値を求める式を示す。
であることに注意すると
のようにそれぞれの期待値の推定式が求まる。
誤り等ご指摘いただけるとありがたいです。