こんにちは!
データサイエンティストのウマたん(@statistics1012)です!
今回は大数の法則について解説していきます!大数の法則とは「サンプルサイズnが大きくなることで、平均\(μ\)、分散\(σ^{2}\)の独立同一分布に従う確率変数の標本平均は母平均に近似できる定理」です!
・大数の法則の定義について解説!
・大数の法則の挙動をPythonで見てみよう
以下のYoutube動画でも解説しているのであわせて是非チェックしてみてください!
大数の法則について解説!
繰り返しますが大数の法則とは、「サンプルサイズ\(n\)が大きくなると、平均\(μ\)、分散\(σ^{2}\)の独立同一分布に従う確率変数の標本平均は母集団に近づく性質」になります。
もっと言い換えると、サンプルサイズを大きくしていくと標本平均と母平均の差は限りなく小さくなることと同義ですね!これを、以下の式で表すことができます!
\(\displaystyle \lim_{n \to \infty}P(|\frac{X_{1}+X_{2}+…+X_{n}}{n} – μ| \geq ε )= 0\)
ここから標本平均と母集団の差が\(ε\)以上になる確率はサンプルサイズ\(n\)を増やすと0に近づくことがわかりますね!
これをコインで考えてみましょう!まずは表が出る確率が\(\frac{1}{2}\)のコインを10回投げてみるとします。10回くらいなら表が出る確率はばらけると思います。
それでは10000回投げてみると考えてみましょう!大数の法則から考えると表が出る確率は\(\frac{1}{2}\)に近づくと考えられますね!
上記の式で見てみると、\(X_{i} = 0(裏), 1(表)\)として考え、その合計をサンプルサイズで割ることで表が出る確率がわかりますね。これをPythonで実装してみましょう!
実際に大数の法則の挙動を見てみよう!
実際にPythonでコインを100回振った場合と10000回振った場合の表が出る確率を見て、母平均\(\frac{1}{2}\)に近づいているか確認してみましょう!
Pythonのコードは以下の通りです!コインはnumpy.randomのchoice関数で表か裏かを選択します!この時、表が出たなら1、裏が出たら0としてカウントします。これを100回、10000回繰り返して出力してみましょう!その後、matplotlib.pyplotを使ってプロットを出力してみることを試みてみましょう!
import numpy as np
import matplotlib.pyplot as plt
fig, axes = plt.subplots(1,2,figsize=(20,5))
coin = [0,1]
x = 0
n = 0
result = []
for i in [101,10001]:
for j in range(1,i):
x +=np.random.choice(coin)
result.append(x/j)
axes[n].plot([k for k in range(len(result))],result)
axes[n].plot([k for k in range(len(result))],[0.5 for k in range(len(result))])
n += 1
x = 0
\(n\)=100の場合は\(\frac{1}{2}\)に近づいていることがわかりますが、母平均と近似できるほどではないように感じますね。一方、10000回投げるとほぼ\(\frac{1}{2}\)となり、大数の法則を確認することができました!
大数の法則 まとめ
本記事では大数の法則についてまとめました!
大数の法則を応用した定理として中心極限定理が挙げられます!こちらはサンプルサイズが大きくなると、どんな分布でも正規分布に近似できるというとても重要な定理ですので、しっかり勉強してみるとよいでしょう!こちらの記事から見ることができます!
このようなデータサイエンスの力を身に付けるためにはスタビジの記事やスクールを活用すると良いでしょう。
そして僕の経験を詰め込んだデータサイエンス特化のスクール「スタアカ(スタビジアカデミー)」を運営していますので,興味のある方はぜひチェックしてみてください!
AIデータサイエンス特化スクール「スタアカ」
【価格】 | ライトプラン:1280円/月 プレミアムプラン:149,800円 |
---|---|
【オススメ度】 | |
【サポート体制】 | |
【受講形式】 | オンライン形式 |
【学習範囲】 | データサイエンスを網羅的に学ぶ 実践的なビジネスフレームワークを学ぶ SQLとPythonを組みあわせて実データを使った様々なワークを行う マーケティングの実行プラン策定 マーケティングとデータ分析の掛け合わせで集客マネタイズ |
データサイエンティストとしての自分の経験をふまえてエッセンスを詰め込んだのがこちらのスタビジアカデミー、略して「スタアカ」!!
当メディアが運営するスクールです。
24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!
カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください!
他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。
そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解などもあわせて学べるボリューム満点のコースになっています!
Pythonが初めての人でも学べるようなカリキュラムしておりますので是非チェックしてみてください!
ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったり・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践してもらったりする盛りだくさんの内容になってます!
・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ
データサイエンスに関する記事はこちら!
データサイエンスを勉強できるスクールやサイトは、ぜひこちらを参考にしてみてください!