こんにちは!
データサイエンティストのウマたん(@statistics1012)です!
今回はp値について解説していきます!p値とは「帰無仮説の下で、統計量がその値以上(以下)になる確率」と定義されています。p値が低いほど、統計量がその値になる確率は小さいことがわかりますね!
p値は検定において非常に重要な概念ではありますが、理解しないでp値が低いことはよいことだ!と思考放棄してしまうことは非常にもったいないです!
この記事では、p値とその求め方について解説します!
・p値とその求め方について解説!
以下の動画でも詳しく解説しているのであわせてチェックしてみてください!
統計学の用語やその他のAI用語を一挙にまとめた以下の記事も合わせて要チェックです!
p値の求め方とそれに基づいた有意差確認について解説!
まず統計的検定について、簡単なおさらいから始めていきましょう!
統計的検定について説明している記事があるので、そちらもぜひ見てくださいね!
統計的検定とは「母集団から抽出した標本から、母集団に関する帰無仮説を棄却できるか判定する」ことを指します!
そして帰無仮説\(H_{0}\)とは「ある仮説が正しいのか検証したいときに建てられる仮説」です。主に否定したい仮説を立てることが多いです。
その例として、アイスの製造会社を考えてみましょう!
この会社が製造しているバニラアイスの内容量は200mlに設定しているはずです。
ある日、社長が「200mlになっていない気がする」と生産管理の担当者に伝えました。そこで、生産管理の担当者であるAさんとBさんは本当に200mlになっているかどうかを確かめることにしました。そして、製造した製品の中から無作為に10個ほど選んで内容量を測ったところ次のようになりました。
$$205,198,197,208,204,202,207,199,207,203 (ml)$$
このデータから平均値を計算すると\(\bar{x}=203\)でした。さて、設定は200mlからずれているのでしょうか。
この時の帰無仮説\(H_{0}\)は「アイスの内容量の平均は200mlでずれていないこと」と考えられますね!また対立仮説は「アイスの内容量の平均は200mlとは異なる」と考えられます。
さて、ここでp値の定義について説明していきます。p値とは「帰無仮説の下で、統計量がその値以上(以下)になる確率」でした。p値の利点として、p値から帰無仮説が正しいか判定することができます!
そして、今回の問題におけるp値とは「アイスの内容量の平均は200mlでずれていない仮説のもとで、標本平均が203ml以上になる確率」と言い換えることができますね!
さて、p値を求める前に、問題の設定を追記しておきましょう!このアイスの問題では、正規分布\(N(200,4^2)\)に従っていると仮定します!
また有意水準は5%と設定し、p値が5%より下回っていたなら帰無仮説を棄却、アイスの内容量の平均は200mlと言えないと考えます。
有意水準を下回った場合に有意差があるといい、統計的に違いがあるといえることになります。
ここで正規分布の統計量を使っていきましょう!正規分布の統計量はこちらになります!
\(z = \frac{\bar{x}-μ}{\frac{σ}{\sqrt{n}}}\)
この式に、\(\bar{x}=203, μ=200, σ=4, n=10\)を代入すると、\(z=2.372\)となります!
さて、p値を算出してみましょう。今回の問題におけるp値は「アイスの内容量の平均は200mlでずれていない仮説のもとで、標本平均が203ml以上になる確率」でした。したがって先ほどの\(z\)に当てはまる確率を、正規分布表から出してみましょう!
\(P(z > 2.372|H_{0}) = 0.008894\)
つまりp値は0.8%となるので、「アイスの内容量の平均は200mlでずれていない仮説のもとで、標本平均が203ml以上になる確率」は0.8%程度だとわかりました!したがって5%より下回っているので帰無仮説\(H_{0}\)を棄却、つまりアイスの内容量の平均は200mlとは言えないとわかりました!
p値 まとめ
本記事ではp値についてまとめました!
p値では主に検定で用いるため、検定手法についてまとめた統計的検定や個別の検定方法について詳しく解説しているので、ぜひ見てください!
このようなデータサイエンスの力を身に付けるためにはスタビジの記事やスクールを活用すると良いでしょう。
そして僕の経験を詰め込んだデータサイエンス特化のスクール「スタアカ(スタビジアカデミー)」を運営していますので,興味のある方はぜひチェックしてみてください!
AIデータサイエンス特化スクール「スタアカ」
【価格】 | ライトプラン:1280円/月 プレミアムプラン:149,800円 |
---|---|
【オススメ度】 | |
【サポート体制】 | |
【受講形式】 | オンライン形式 |
【学習範囲】 | データサイエンスを網羅的に学ぶ 実践的なビジネスフレームワークを学ぶ SQLとPythonを組みあわせて実データを使った様々なワークを行う マーケティングの実行プラン策定 マーケティングとデータ分析の掛け合わせで集客マネタイズ |
データサイエンティストとしての自分の経験をふまえてエッセンスを詰め込んだのがこちらのスタビジアカデミー、略して「スタアカ」!!
当メディアが運営するスクールです。
24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!
カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください!
他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。
そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解などもあわせて学べるボリューム満点のコースになっています!
Pythonが初めての人でも学べるようなカリキュラムしておりますので是非チェックしてみてください!
ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったり・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践してもらったりする盛りだくさんの内容になってます!
・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ
データサイエンスに関する記事はこちら!
データサイエンスを勉強できるスクールやサイトは、ぜひこちらを参考にしてみてください!