中心極限定理についてPythonで挙動を見ながら解説！

ウマたん

当サイト【スタビジ】の本記事では、中心極限定理について解説してきます。中心極限定理とはサンプルサイズnが大きくなることで、どのような分布であっても平均μ、分散\(\frac{σ^{2}}{n}\)の正規分布に近似する性質を指します。今回はサイコロの例を使いつつ、中心極限定理の挙動を見ていきたいと思います！

こんにちは！

データサイエンティストのウマたん(@statistics1012)です！

今回は中心極限定理について解説していきます！中心極限定理とは「サンプルサイズnが大きくなることで、母集団がどのような分布であっても標本平均の分布は平均\(μ\)、分散\(\frac{σ^{2}}{n}\)の正規分布に近似する定理」と考えられています！

ロボたん

サンプルサイズを大きくすれば、どんな分布でも正規分布に近似できるってすごい性質だね！

ウマたん

この中心極限定理を使う例として、母集団から標本を抽出する際のサンプルサイズを決定するときが挙げられるよ！それくらい効果のある定理なんだ！

この記事では、中心極限定理の定義について解説しつつ、サイコロの例をつかって正規分布に近似していく様子を見ていきます！

・中心極限定理の定義について解説！
・中心極限定理の挙動をPythonで見てみよう

以下のYoutube動画でも解説しているのであわせて是非チェックしてみてください！

中心極限定理について解説！
実際に中心極限定理の挙動を見てみよう！
中心極限定理　まとめ
- AIデータサイエンス特化スクール「スタアカ」

中心極限定理について解説！

中心極限定理とは「サンプルサイズnが大きくなることで、母集団がどのような分布であっても標本平均の分布は平均\(μ\)、分散\(\frac{σ^{2}}{n}\)の正規分布に近似する定理」です。

いきなり正規分布という単語が出てきたため混乱すると思うので、今回はサイコロの例を使って、中心極限定理を見ていきましょう！

まず前提として母集団から\(n\)個の標本\(X_{n}\)を無作為抽出した場合、その平均は以下の式で表すことができます！

\(\bar{X} = \frac{\sum_{i=1}^{n} X_{i}}{n}\)

これを中心極限定理で考えてみると、「\(\bar{X}\)の分布はサンプルサイズ\(n\)を増やすことで、正規分布に近似される」ことが言えるはずです！

そして今回はサイコロの例を使って見ると、「サイコロの目の平均のサンプルサイズを増やすことで、正規分布に近似される」と言い換えることができます！

サイコロを100回振った時のサイコロの出目の平均値を計算するという施行を何回も繰り返すと、その平均値の分布は正規分布に近づくということなんです！

実際に中心極限定理の挙動を見てみよう！

実際にPythonでサイコロを100回振った場合のサイコロの目の平均のヒストグラムを見て、正規分布に近づいているか確認してみましょう！そして標本平均を5回、10回、100回、10000回と抽出してみましょう。

Pythonのコードは以下の通り！サイコロの目はnumpy.randomのrandint関数で生成して、その平均を出力してみましょう！その後、matplotlib.pyplotやseabornを使ってヒストグラムを出力してみることを試みてみましょう！

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

total = []
fig, axes = plt.subplots(1,4,figsize=(10,5))
for j,n in enumerate([5,10,100,10000]):
    for i in range(n):
        X_n = np.random.randint(1,6,100)
        X_mean = np.mean(X_n)
        total.append(X_mean)
    sns.distplot(total,kde=True,ax=axes[j],label="n={}".format(n))
    axes[j].legend()
    total = []
plt.show()

\(n\)=5, 10とした場合でも、正規分布にかなり近いことが分かりますね。そして\(n\)=10000ならほぼ正規分布といっても過言ではないでしょう！試行回数を増やせば増やすほど、分布の形が分かりやすくなりますね！

中心極限定理　まとめ

本記事では中心極限定理についてまとめました！中心極限定理のベースとなる大数の法則についてもあわせてチェックしてみてください。

また、中心極限定理を用いる代表的な分布として二項分布が挙げられます！スタビジでは二項分布の解説と正規分布への近似まで解説しているので、是非見てください！

二項分布について解説！定義と期待値・分散の計算、正規分布への近似について！当サイト【スタビジ】の本記事では、二項分布について解説していきます！二項分布は代表的な離散的分布の一つです。今回は二項分布の定義を解説しつつ、平均・分散といった基本的な要素も解説していきます。...

このようなデータサイエンスの力を身に付けるためにはスタビジの記事やスクールを活用すると良いでしょう。

そして僕の経験を詰め込んだデータサイエンス特化のスクール「スタアカ（スタビジアカデミー）」を運営していますので，興味のある方はぜひチェックしてみてください！

AIデータサイエンス特化スクール「スタアカ」

【価格】	ライトプラン：1280円/月プレミアムプラン：149,800円
【オススメ度】
【サポート体制】
【受講形式】	オンライン形式
【学習範囲】	データサイエンスを網羅的に学ぶ実践的なビジネスフレームワークを学ぶ SQLとPythonを組みあわせて実データを使った様々なワークを行うマーケティングの実行プラン策定マーケティングとデータ分析の掛け合わせで集客マネタイズ

データサイエンティストとしての自分の経験をふまえてエッセンスを詰め込んだのがこちらのスタビジアカデミー、略して「スタアカ」！！

当メディアが運営するスクールです。

24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します！

カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください！

他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。

そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解などもあわせて学べるボリューム満点のコースになっています！

Pythonが初めての人でも学べるようなカリキュラムにしておりますので是非チェックしてみてください！

ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったり・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践してもらったりする盛りだくさんの内容になってます！

・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ

＼今すぐ試す／スタアカの受講はこちら

データサイエンスに関する記事はこちら！