統計学

大数の法則について分かりやすく解説しPythonで検証!中心極限定理に繋がる法則とは?

大数の法則 アイキャッチ
記事内に商品プロモーションを含む場合があります
ウマたん
ウマたん
当サイト【スタビジ】の本記事では、大数の法則について解説してきます。大数の法則とはサンプルサイズnが大きくなることで、標本平均は母平均に近似できる性質を指します。今回はコインの例を使いつつ、大数の法則を見ていきたいと思います!有名な中心極限定理にも繋がる大事な大数の法則をおさえておきましょう!

こんにちは!

データサイエンティストのウマたん(@statistics1012)です!

今回は大数の法則について解説していきます!大数の法則とは「サンプルサイズnが大きくなることで、平均\(μ\)、分散\(σ^{2}\)の独立同一分布に従う確率変数の標本平均は母平均に近似できる定理」です

ロボたん
ロボたん
サンプルサイズを大きくすると、標本の平均は母集団の平均に近づくってこと?
ウマたん
ウマたん
その通り!今回はコインの例を使って大数の法則が成立するか確認していくよ!

・大数の法則の定義について解説!
・大数の法則の挙動をPythonで見てみよう

以下のYoutube動画でも解説しているのであわせて是非チェックしてみてください!

大数の法則について解説!

learning_2

繰り返しますが大数の法則とは、「サンプルサイズ\(n\)が大きくなると、平均\(μ\)、分散\(σ^{2}\)の独立同一分布に従う確率変数の標本平均は母集団に近づく性質」になります

もっと言い換えると、サンプルサイズを大きくしていくと標本平均と母平均の差は限りなく小さくなることと同義ですね!これを、以下の式で表すことができます!

\(\displaystyle \lim_{n \to \infty}P(|\frac{X_{1}+X_{2}+…+X_{n}}{n} – μ| \geq ε )= 0\)

ここから標本平均と母集団の差が\(ε\)以上になる確率はサンプルサイズ\(n\)を増やすと0に近づくことがわかりますね!

ウマたん
ウマたん
この式自体は覚えなくてもいいけど、どんな定理なのか、どんな性質が読み取れるか把握しておこう!

これをコインで考えてみましょう!まずは表が出る確率が\(\frac{1}{2}\)のコインを10回投げてみるとします。10回くらいなら表が出る確率はばらけると思います。

それでは10000回投げてみると考えてみましょう!大数の法則から考えると表が出る確率は\(\frac{1}{2}\)に近づくと考えられますね!

上記の式で見てみると、\(X_{i} = 0(裏), 1(表)\)として考え、その合計をサンプルサイズで割ることで表が出る確率がわかりますね。これをPythonで実装してみましょう!

実際に大数の法則の挙動を見てみよう!

learning

実際にPythonでコインを100回振った場合と10000回振った場合の表が出る確率を見て、母平均\(\frac{1}{2}\)に近づいているか確認してみましょう!

Pythonのコードは以下の通りです!コインはnumpy.randomのchoice関数で表か裏かを選択します!この時、表が出たなら1、裏が出たら0としてカウントします。これを100回、10000回繰り返して出力してみましょう!その後、matplotlib.pyplotを使ってプロットを出力してみることを試みてみましょう!

import numpy as np
import matplotlib.pyplot as plt

fig, axes = plt.subplots(1,2,figsize=(20,5))
coin = [0,1]
x = 0
n = 0
result = []

for i in [101,10001]:
    for j in range(1,i):
        x +=np.random.choice(coin)
        result.append(x/j)
    axes[n].plot([k for k in range(len(result))],result)
    axes[n].plot([k for k in range(len(result))],[0.5 for k in range(len(result))])
    n += 1
    x = 0
大数の法則 python

\(n\)=100の場合は\(\frac{1}{2}\)に近づいていることがわかりますが、母平均と近似できるほどではないように感じますね。一方、10000回投げるとほぼ\(\frac{1}{2}\)となり、大数の法則を確認することができました!

大数の法則 まとめ

Happy
本記事では大数の法則についてまとめました!

大数の法則を応用した定理として中心極限定理が挙げられます!こちらはサンプルサイズが大きくなると、どんな分布でも正規分布に近似できるというとても重要な定理ですので、しっかり勉強してみるとよいでしょう!こちらの記事から見ることができます!

中心極限定理についてPythonで挙動を見ながら解説!当サイト【スタビジ】の本記事では、中心極限定理について解説してきます。中心極限定理とはサンプルサイズnが大きくなることで、どのような分布であっても平均μ、分散\(\frac{σ^{2}}{n}\)の正規分布に近似する性質を指します。今回はサイコロの例を使いつつ、中心極限定理の挙動を見ていきたいと思います!...

このようなデータサイエンスの力を身に付けるためにはスタビジの記事やスクールを活用すると良いでしょう。

そして僕の経験を詰め込んだデータサイエンス特化のスクール「スタアカ(スタビジアカデミー)」を運営していますので,興味のある方はぜひチェックしてみてください!

AIデータサイエンス特化スクール「スタアカ」

スタアカトップ
【価格】ライトプラン:1280円/月
プレミアムプラン:149,800円
【オススメ度】
【サポート体制】
【受講形式】オンライン形式
【学習範囲】データサイエンスを網羅的に学ぶ
実践的なビジネスフレームワークを学ぶ
SQLとPythonを組みあわせて実データを使った様々なワークを行う
マーケティングの実行プラン策定
マーケティングとデータ分析の掛け合わせで集客マネタイズ

データサイエンティストとしての自分の経験をふまえてエッセンスを詰め込んだのがこちらのスタビジアカデミー、略して「スタアカ」!!

当メディアが運営するスクールです。

24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!

カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください!

他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。

そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解などもあわせて学べるボリューム満点のコースになっています!

Pythonが初めての人でも学べるようなカリキュラムしておりますので是非チェックしてみてください!

ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったり・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践してもらったりする盛りだくさんの内容になってます!

・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ

データサイエンスに関する記事はこちら!

統計学入門に必要な知識と独学勉強方法を簡単に学ぼう!当ブログ【スタビジ】の本記事では、統計学入門に必要な知識をカンタンにまとめ、それらをどのように効率的に独学で勉強していけばよいかをお話ししていきます。統計学は難しいイメージが少しありますが、学び方をしっかり考えれば大丈夫!...
デーサイエンス本
【データサイエンティスト厳選18冊】データサイエンスを学ぶ上でオススメな本・教材!当ブログ【スタビジ】の本記事では、データサイエンスを学ぶ上でオススメできる本を厳選して紹介していきます。ここではデータサイエンティストになるために習得するスキルをデータサイエンスと称しております。いくつかの観点に切り分けて見ていきます。...

データサイエンスを勉強できるスクールやサイトは、ぜひこちらを参考にしてみてください!

データサイエンティスト スクール
【徹底比較】データサイエンティストのための学習ができるスクール9選! スクール名 オススメ度 価格の安さ サポート体制 公式サイト テックアカデミー ...
スタビジアカデミーでデータサイエンスをさらに深く学ぼう!

スタアカサービスバナースタビジのコンテンツをさらに深堀りしたコンテンツが動画と一緒に学べるスクールです。

プレミアムプランでは私がマンツーマンで伴走させていただきます!ご受講お待ちしております!

スタビジアカデミーはこちら