こんにちは!
データサイエンティストのウマたん(@statistics1012)です!
今回は自由度について解説していきます!自由度とは「自由に決めることのできるパラメータの数」と定義されています。しかし統計学を学び始めた初心者の方が理解するのに難しい概念の一つであり、自由度を決めることでどういったメリットがあるのかいまいち分からないところがあるかもしれません。
例えば標本分散になぜ\(n-1\)が使われるのか、あるいは分布で使われる自由度はなぜそうなるのか理解が難しいところがあります。
この記事では、自由度の定義とその例について解説します!
・自由度について解説!
・自由度の例について解説!
以下のYoutube動画でも解説していますのであわせてチェックしてみてください!
自由度について解説!
早速、自由度の解説をしていきましょう!
自由度とは「自由に決めることのできるパラメータの数」と定義されていますが、この「自由に決める」という箇所が難しいところです。
ここで標本平均について考えていきましょう!
例えばサンプルサイズ4のデータを持っており、標本平均は4であるとわかりました。したがって以下のような式が成り立ちますね!
\(\frac{a+b+c+d}{4}=4\)
そこでa=1、b=2、c=3と仮定したとき、dは必然的に10となります!したがって「4つの値のうち、3つの値を自由に決めれば、必然的に残り1つの値が決定される」ことがわかりますね!
したがって自由度の定義である「自由に決めることのできるパラメータの数」は3です!このように基本的には「サンプルサイズnから1を引いた値」が自由度になることが多いです。
自由度の例について解説! ~不偏分散~
自由度の例として不偏分散を取り上げましょう!
不偏分散は「偏差の2乗の合計を\(n-1\)で割った値」ですが、\(n-1\)で割る理由は何故でしょうか?今回は自由度の観点から確認していきましょう!
またこちらの記事では標本分散と不偏分散について解説しているのでぜひ見てくださいね!
いきなり不偏分散からではなく、標本分散から見ていきましょう!標本分散の式は以下の通りです!
\(σ^{2} = \frac{1}{n}(x_{i}-\bar{x})^{2}\)
そして標本平均\(\bar{x}\)は以下の通りになりますね!
\(\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_{i} \)
このとき標本平均\(\bar{x}\)は先程の解説から、自由度(自由に決めることができるパラメータ)は\(n-1\)ですね!
そして標本分散の方も\(x_{i}(i=1,2,…,n-1)\)で自由に決めることで、\(x_{n}\)は自動的に値が決まってしまうことが考えられますね!
したがってこの標本平均の式は \(x_{i}\)1個分の情報量がなくなっているので、それにあわせて\(n-1\)で割ることで、正確に分散が推定できると考えられます!これが不偏分散の正体となります。
t分布やカイ二乗分布の自由度について解説!
次に統計的検定のt検定やカイ二乗検定で用いられるt分布・カイ二乗分布の自由度について説明します!
まずはt検定!
t検定では統計量tを求めて、その統計量がt分布においてどのくらいの確率で起きうる値なのかを算出して統計的な違いを確認していきます。
ちなみにt検定には以下のようなパターンがあります。
それでは1標本の場合のt検定はどのようなアプローチになるのでしょうか?
1標本の場合のt検定の統計量tは以下のように求めます。この時の\(s\)は標本の標準偏差を意味しています!
\(t = \frac{\bar{x}-μ}{\frac{s}{\sqrt{n}}}\)
そして、この統計量tは自由度がn-1のt分布に従うことが分かっています。
先ほどの不偏分散と同じ要領で1標本において標本平均は自由に取れる値がn-1になるので、統計量tも自由度n-1のt分布に従うことになるんです!
一方で、2標本の場合の統計量tはどうなるでしょう?
統計量は以下のようになります。
$$t = \frac{\bar{x} – \bar{y}}{\sqrt{\frac{1}{m}+\frac{1}{n}}\hat{σ}} ~t(m + n – 2)$$
2標本の場合は各標本のサンプルサイズを足したものから2を引いた(m + n – 2)の自由度に従うことになるのです!
これも同じ要領であることが分かりますね。
t検定に関しては以下の記事で詳しく解説していますのでチェックしてみてください!
続いてカイ二乗検定です。
カイ二乗検定は一見難しそうな検定なのですが、概念自体は非常に簡単。
具体的な例を挙げて見ていきましょう!
あるメールABの効果を確かめるためにランダムに振り分けたセグメントに配信を行いました。結果は以下の通り。
クリックしなかった数 | クリックした数 | 配信数 | |
メールA | 1000 | 60 | 1060 |
メールB | 400 | 40 | 440 |
合計 | 1400 | 100 | 1500 |
※クリック数はメールからURLをクリックしてWebサイトへ遷移した数と定義します。
この時メールAとメールBでどちらの方が良いと言えるでしょうか?それとも、違いがあるとは言えないのでしょうか?
この時メールAとメールBでどちらの方が良いと言えるでしょうか?それとも、違いがあるとは言えないのでしょうか?
ここでカイ二乗検定の出番になります。
次にカイ二乗分布の統計量は以下の通りになっています!
\(\chi^{2} = \frac{(n-1)s^{2}}{σ^{2}}\)
この統計量をカイ二乗分布に適用させてどのくらいの確率で起きうるのかを見ていくのです。
そしてこの時の自由度は、(2-1)✕(2-1)=1になります。
イメージとしては、以下のようにメールAのクリックしなかった数が分かると、自ずと他の値も自動的に決まることが分かると思います。
クリックしなかった数 | クリックした数 | 配信数 | |
メールA | 1000 | 1060 | |
メールB | 440 | ||
合計 | 1400 | 100 | 1500 |
そのため自由度は1なのです。
もしこの分割表が3✕2だったら自由度は(3-1)✕(2-1)で2となります!
カイ二乗検定に関してはこちらの記事に書いてありますので、ぜひ見てくださいね!
自由度 まとめ
本記事では自由度についてまとめました!
今回は標本平均と標本分散を例に挙げましたが、標本の考え方や自由度が大きくなることでデータの分布が正規分布に近づく中心極限定理という概念もありますので、ぜひチェックしてみてくださいね!
このようなデータサイエンスの力を身に付けるためにはスタビジの記事やスクールを活用すると良いでしょう。
そして僕の経験を詰め込んだデータサイエンス特化のスクール「スタアカ(スタビジアカデミー)」を運営していますので,興味のある方はぜひチェックしてみてください!
AIデータサイエンス特化スクール「スタアカ」
【価格】 | ライトプラン:1280円/月 プレミアムプラン:149,800円 |
---|---|
【オススメ度】 | |
【サポート体制】 | |
【受講形式】 | オンライン形式 |
【学習範囲】 | データサイエンスを網羅的に学ぶ 実践的なビジネスフレームワークを学ぶ SQLとPythonを組みあわせて実データを使った様々なワークを行う マーケティングの実行プラン策定 マーケティングとデータ分析の掛け合わせで集客マネタイズ |
データサイエンティストとしての自分の経験をふまえてエッセンスを詰め込んだのがこちらのスタビジアカデミー、略して「スタアカ」!!
当メディアが運営するスクールです。
24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!
カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください!
他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。
そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解などもあわせて学べるボリューム満点のコースになっています!
Pythonが初めての人でも学べるようなカリキュラムしておりますので是非チェックしてみてください!
ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったり・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践してもらったりする盛りだくさんの内容になってます!
・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ
データサイエンスに関する記事はこちら!
データサイエンスを勉強できるスクールやサイトは、ぜひこちらを参考にしてみてください!