統計的検定

検定

統計学の中で非常に基礎でありながら重要な検定について説明していきたいと思います。

検定ってなに?

ウマ

検定ってなに?

シンエー

検定とは母集団から観測された標本に基づいて母数に関する帰無仮説を棄却できるかを客観的に判定する手続きのことだよ。

ウマ

うーん、難しそうだなあ

シンエー

難しい言葉がたくさん出てきてしまったね。具体例を交えて考えてみようか。

ウマ

よろしくお願いします!

検定は統計学を初めて学ぶ人にも早いうちに出てくる分野です。統計学の中では基礎ですが、非常に深くて重要なテーマです。ここでは、おそらく”一般的な”検定であるネイマン流の頻度論に基づく検定についてなるべく分かりやすく紹介します。細かな検定の種類や計算方法ではなく、検定や推定がどのような考えなのかを分かりやすく伝えることを目的にしています。

検定はどんなときに使う?

検定を用いる状況として、例えばアイス製造会社を考えてみましょう。
この会社が製造しているバニラアイスの内容量は200mlに設定しているはずです。
ある日、社長が「200mlになっていない気がする」と生産管理の担当者に伝えました。そこで、生産管理の担当者であるAさんとBさんは本当に200mlになっているかどうかを確かめることにしました。そして、製造した製品の中から無作為に10個ほど選んで内容量を測ったところ次のようになりました。
$$205,198,197,208,204,202,207,199,207,203 (ml)$$
このデータから平均値を計算すると\(\bar{x}=203\)でした。さて、設定は200mlからずれているのでしょうか。

ウマ

うーん、3mlも違うなら200mlからずれいていると考えていいんじゃないの?

シンエー

そうかな?一つ一つの内容量を見ると197mlや208mlのものまであるよ。そう思うと3mlは誤差と言えるんじゃないかな?

ウマ

じゃあ、200mlからずれているの?

シンエー

どうだろうね?本当は3mlは大きな違いかもしれないね?

ウマ

えー!どっちなの?

シンエー

そう。結局これだけじゃ合理的な判断は下せないね。そのために検定があるんだ!

検定に関する用語

ここで、具体例と照らし合わせて用語を整理します。
・母集団…ある傾向をもつアイスの集まり。(神にしか分からない)
・母数…母集団の特徴を定める傾向のこと。例えば、母平均や母分散。(神にしか分からない)
・標本…母集団から得られた観測値群のこと。今の場合、選んだアイス10個のこと。
・帰無仮説…何も違いがないという仮説。今の場合、「アイスの平均の設定が200mlでずれていない」ということ。
・対立仮説…何か違いがあるという仮説。今の場合、「アイスの平均の設定が200mlからずれている」ということ。
・棄却…帰無仮説を否定すること

検定の流れ

では、実際に検定の流れを説明して行きます。
検定では確率分布という道具を使います。今の場合はアイスの平均に関する検定なので正規分布を用います。また、簡単のために母分散は\(4^2\)と知っていることにしておきます。そうすると母集団は\(N(\mu,4^2)\)に従います。そして、問題は\(\mu\)が200であるのかどうなのかということです。
仮に、\(\mu=200\)であるとしましょう。平均\(\bar{x}=203\)を正規化した\(u\)は\(N(0,1^2)\)に従います。このとき、正規分布の確率密度関数から分布の端っこの面積が5%になる点はどこかを計算すると-1.960と1.960という値になります。これはつまり\(N(0,1^2)\)に従うデータが「-1.960よりも小さい」あるいは「1.960よりも大きい」可能性が5%くらいしかあり得ないということを意味します。
さて、いま計算して\(|u|\)を求めると2.372という値になりました。この値は1.960より大きいです。どう思いますか?

ウマ

うーん、たまたま5%くらいしかあり得ないデータだったってことかな?

シンエー

確かにその可能性もあるね。でも、もっと自然な捉え方があるよ。それは、仮定が間違っていたと考えるんだ。この問題での仮定はなんだったけ?

ウマ

えーと、\(\mu=200\)と置いたことかな?

シンエー

そうだね、\(\mu=200\)と考えて、つまり、データが\(N(200,4^2)\)に従うと考えて計算してみたね。その結果、計算するとたった5%も起こらないようなことになってしまったんだ。ということは、\(\mu=200\)つまり帰無仮説は間違っていたんじゃないの?というのが検定の論理なんだ。この5%というのは有意水準と呼ばれるよ。

ウマ

そうか!仮説があっていると考えて話を進めたら、確率的に不自然になったから仮説が間違っていたと考える方が自然ということか!

シンエー

そういうことだね。帰無仮説が間違っていたということを「帰無仮説を棄却する」というよ。

ウマ

じゃあ、もし\(|u|\)が1.960より小さい場合は\(\mu=200\)つまり帰無仮説が正しいということか!

シンエー

実はそうは言い切れないんだ。\(|u|\)が1.960より小さいというのは「帰無仮説を棄却出来ない」くらいの消極的な表現にとどめておく必要があるんだ。この辺はまた別に詳しく説明していくよ。

確率分布に正規分布を用いましたが、正規分布以外を用いることもたくさんあります。どんな分布を使うかはデータの種類や形式、検定したい母数の種類によって変わります。しかし、検定の基本的な流れはどんな場合でも変わりません。今回の説明が検定というものの理解の助けになれば幸いです。

参考書籍

統計を最初から勉強する上で持っておきたい良書です。検定について詳しく載っています