統計学

統計学における自由度について解説!不偏分散・t分布・カイ二乗分布の自由度とは?

自由度 アイキャッチ
記事内に商品プロモーションを含む場合があります
ウマたん
ウマたん
当サイト【スタビジ】の本記事では、自由度について解説してきます。自由度とは「自由に決めることのできるパラメータの数」と定義されており、主に検定などでよく使われている概念です!今回は自由度の定義とよく使われる例について解説します!

こんにちは!

データサイエンティストのウマたん(@statistics1012)です!

今回は自由度について解説していきます!自由度とは「自由に決めることのできるパラメータの数」と定義されています。しかし統計学を学び始めた初心者の方が理解するのに難しい概念の一つであり、自由度を決めることでどういったメリットがあるのかいまいち分からないところがあるかもしれません。

例えば標本分散になぜ\(n-1\)が使われるのか、あるいは分布で使われる自由度はなぜそうなるのか理解が難しいところがあります。

ロボたん
ロボたん
自由度はよく見るけど、自由度ってなんだっけ…?となることがある…
ウマたん
ウマたん
この記事は学び始めた方だけでなく、ある程度統計を勉強して復習したい人にピッタリだと思うよ!

この記事では、自由度の定義とその例について解説します!

・自由度について解説!
・自由度の例について解説!

以下のYoutube動画でも解説していますのであわせてチェックしてみてください!

自由度について解説!

Analytics

早速、自由度の解説をしていきましょう!

自由度とは「自由に決めることのできるパラメータの数」と定義されていますが、この「自由に決める」という箇所が難しいところです。

ここで標本平均について考えていきましょう!

例えばサンプルサイズ4のデータを持っており、標本平均は4であるとわかりました。したがって以下のような式が成り立ちますね!

\(\frac{a+b+c+d}{4}=4\)

そこでa=1、b=2、c=3と仮定したとき、dは必然的に10となります!したがって「4つの値のうち、3つの値を自由に決めれば、必然的に残り1つの値が決定される」ことがわかりますね!

したがって自由度の定義である「自由に決めることのできるパラメータの数」は3です!このように基本的には「サンプルサイズnから1を引いた値」が自由度になることが多いです。

自由度の例について解説! ~不偏分散~

Stories

自由度の例として不偏分散を取り上げましょう!

不偏分散は「偏差の2乗の合計を\(n-1\)で割った値」ですが、\(n-1\)で割る理由は何故でしょうか?今回は自由度の観点から確認していきましょう!

またこちらの記事では標本分散と不偏分散について解説しているのでぜひ見てくださいね!

分散の求め方!不偏分散と標本分散の違い当サイト【スタビジ】の本記事では、分散について解説していきます!分散とは「データの散らばり具合を示す」重要な指標となっています。今回は分散の定義について解説しつつ、分散のなかでも標本分散と不偏分散の違いについて解説してPythonで実装していきます!...

いきなり不偏分散からではなく、標本分散から見ていきましょう!標本分散の式は以下の通りです!

\(σ^{2} = \frac{1}{n}(x_{i}-\bar{x})^{2}\)

そして標本平均\(\bar{x}\)は以下の通りになりますね!

\(\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_{i} \)

このとき標本平均\(\bar{x}\)は先程の解説から、自由度(自由に決めることができるパラメータ)は\(n-1\)ですね!

そして標本分散の方も\(x_{i}(i=1,2,…,n-1)\)で自由に決めることで、\(x_{n}\)は自動的に値が決まってしまうことが考えられますね!

したがってこの標本平均の式は \(x_{i}\)1個分の情報量がなくなっているので、それにあわせて\(n-1\)で割ることで、正確に分散が推定できると考えられます!これが不偏分散の正体となります。

ロボたん
ロボたん
不偏分散の解説では統計量の不偏性で説明することがほとんどだけど、こんな考え方で説明できるんだね!
ウマたん
ウマたん
その通り!僕たちがよく使っている自由度の決め方や統計量の自由度について理解が深まったかな?

t分布やカイ二乗分布の自由度について解説!

Data Trends

次に統計的検定t検定カイ二乗検定で用いられるt分布・カイ二乗分布の自由度について説明します!

まずはt検定!

t検定では統計量tを求めて、その統計量がt分布においてどのくらいの確率で起きうる値なのかを算出して統計的な違いを確認していきます。

ちなみにt検定には以下のようなパターンがあります。

・1標本の場合のt検定
・2標本の場合のt検定(標本分散が等しい)
・2標本の場合のt検定(標本分散が等しくない)

それでは1標本の場合のt検定はどのようなアプローチになるのでしょうか?

1標本の場合のt検定の統計量tは以下のように求めます。この時の\(s\)は標本の標準偏差を意味しています!

\(t = \frac{\bar{x}-μ}{\frac{s}{\sqrt{n}}}\)

そして、この統計量tは自由度がn-1のt分布に従うことが分かっています。

先ほどの不偏分散と同じ要領で1標本において標本平均は自由に取れる値がn-1になるので、統計量tも自由度n-1のt分布に従うことになるんです!

一方で、2標本の場合の統計量tはどうなるでしょう?

統計量は以下のようになります。

$$t = \frac{\bar{x} – \bar{y}}{\sqrt{\frac{1}{m}+\frac{1}{n}}\hat{σ}} ~t(m + n – 2)$$

2標本の場合は各標本のサンプルサイズを足したものから2を引いた(m + n – 2)の自由度に従うことになるのです!

これも同じ要領であることが分かりますね。

t検定に関しては以下の記事で詳しく解説していますのでチェックしてみてください!

【5分で分かる】t検定の概要とPythonやRでの実装方法!当サイト【スタビジ】の本記事では、推計統計学の基本であるt検定についてまとめていきます。統計的検定にはいくつかの種類がありますが、中でも一番定番で様々な場面に登場するのがこちらのt検定なんです。ぜひマスターしておきましょうね!...

続いてカイ二乗検定です。

カイ二乗検定は一見難しそうな検定なのですが、概念自体は非常に簡単。

具体的な例を挙げて見ていきましょう!

あるメールABの効果を確かめるためにランダムに振り分けたセグメントに配信を行いました。結果は以下の通り。

クリックしなかった数クリックした数配信数
メールA1000601060
メールB40040440
合計14001001500

※クリック数はメールからURLをクリックしてWebサイトへ遷移した数と定義します。

この時メールAとメールBでどちらの方が良いと言えるでしょうか?それとも、違いがあるとは言えないのでしょうか?

この時メールAとメールBでどちらの方が良いと言えるでしょうか?それとも、違いがあるとは言えないのでしょうか?

ここでカイ二乗検定の出番になります。

次にカイ二乗分布の統計量は以下の通りになっています!

\(\chi^{2} = \frac{(n-1)s^{2}}{σ^{2}}\)

この統計量をカイ二乗分布に適用させてどのくらいの確率で起きうるのかを見ていくのです。

そしてこの時の自由度は、(2-1)✕(2-1)=1になります。

イメージとしては、以下のようにメールAのクリックしなかった数が分かると、自ずと他の値も自動的に決まることが分かると思います。

クリックしなかった数クリックした数配信数
メールA10001060
メールB440
合計14001001500

そのため自由度は1なのです。

もしこの分割表が3✕2だったら自由度は(3-1)✕(2-1)で2となります!

カイ二乗検定に関してはこちらの記事に書いてありますので、ぜひ見てくださいね!

カイ二乗検定について分かりやすく解説!Rでの実装を一緒に見ていこう!当サイト【スタビジ】の本記事では、統計的検定の1つであるカイ二乗検定についてまとめていきます!カイ二乗検定はビジネスシーンで使用することが多く分かっていると非常に役立ちます。RでもPythonでも簡単に使うことができるのでぜひマスターしてくださいね!...

自由度 まとめ

Happy
本記事では自由度についてまとめました!

今回は標本平均標本分散を例に挙げましたが、標本の考え方や自由度が大きくなることでデータの分布が正規分布に近づく中心極限定理という概念もありますので、ぜひチェックしてみてくださいね!

母集団と標本 アイキャッチ
母集団と標本の違いについて解説!標本の抽出方法もわかりやすく!当サイト【スタビジ】の本記事では、母集団と標本について解説してきます。母集団とは本来知りたいと考えている集団全体を意味し、標本は母集団から抽出された一部を意味します。そして母集団から抽出された標本から母集団の性質を推定することができます。今回は母集団と標本の意味と抽出方法について解説します!...
中心極限定理についてPythonで挙動を見ながら解説!当サイト【スタビジ】の本記事では、中心極限定理について解説してきます。中心極限定理とはサンプルサイズnが大きくなることで、どのような分布であっても平均μ、分散\(\frac{σ^{2}}{n}\)の正規分布に近似する性質を指します。今回はサイコロの例を使いつつ、中心極限定理の挙動を見ていきたいと思います!...

このようなデータサイエンスの力を身に付けるためにはスタビジの記事やスクールを活用すると良いでしょう。

そして僕の経験を詰め込んだデータサイエンス特化のスクール「スタアカ(スタビジアカデミー)」を運営していますので,興味のある方はぜひチェックしてみてください!

AIデータサイエンス特化スクール「スタアカ」

スタアカトップ
【価格】ライトプラン:1280円/月
プレミアムプラン:149,800円
【オススメ度】
【サポート体制】
【受講形式】オンライン形式
【学習範囲】データサイエンスを網羅的に学ぶ
実践的なビジネスフレームワークを学ぶ
SQLとPythonを組みあわせて実データを使った様々なワークを行う
マーケティングの実行プラン策定
マーケティングとデータ分析の掛け合わせで集客マネタイズ

データサイエンティストとしての自分の経験をふまえてエッセンスを詰め込んだのがこちらのスタビジアカデミー、略して「スタアカ」!!

当メディアが運営するスクールです。

24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!

カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください!

他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。

そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解などもあわせて学べるボリューム満点のコースになっています!

Pythonが初めての人でも学べるようなカリキュラムしておりますので是非チェックしてみてください!

ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったり・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践してもらったりする盛りだくさんの内容になってます!

・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ

データサイエンスに関する記事はこちら!

統計学入門に必要な知識と独学勉強方法を簡単に学ぼう!当ブログ【スタビジ】の本記事では、統計学入門に必要な知識をカンタンにまとめ、それらをどのように効率的に独学で勉強していけばよいかをお話ししていきます。統計学は難しいイメージが少しありますが、学び方をしっかり考えれば大丈夫!...
デーサイエンス本
【データサイエンティスト厳選18冊】データサイエンスを学ぶ上でオススメな本・教材!当ブログ【スタビジ】の本記事では、データサイエンスを学ぶ上でオススメできる本を厳選して紹介していきます。ここではデータサイエンティストになるために習得するスキルをデータサイエンスと称しております。いくつかの観点に切り分けて見ていきます。...

データサイエンスを勉強できるスクールやサイトは、ぜひこちらを参考にしてみてください!

データサイエンティスト スクール
【徹底比較】データサイエンティストのための学習ができるスクール9選! スクール名 オススメ度 価格の安さ サポート体制 公式サイト テックアカデミー ...
スタビジアカデミーでデータサイエンスをさらに深く学ぼう!

スタアカサービスバナースタビジのコンテンツをさらに深堀りしたコンテンツが動画と一緒に学べるスクールです。

プレミアムプランでは私がマンツーマンで伴走させていただきます!ご受講お待ちしております!

スタビジアカデミーはこちら