こんにちは!
デジタルマーケター兼データサイエンティストのウマたん(@statistics1012)です!
今回解説する正規分布は確率分布の中で最も重要な分布といっても過言ではないくらい、様々な分野で使われています。
日常のあらゆる事象は正規分布に従っていることが多いです。例えば日本人の同じ年齢・性別の身長の分布は正規分布に従っていることが分かっています!
また複数のサイコロを振った際の平均値も正規分布に従うこともわかっています。このサイコロの例については二項分布の記事を見ると良いでしょう!
この記事では、そんな正規分布の定義を解説をしながらもその性質について解説していきます。またPythonで正規分布を実装してみましょう!
・正規分布の定義について解説!
・正規分布の性質について解説!
・Pythonで正規分布を見てみよう!
正規分布について動画で学びたい方は以下のYoutube動画もあわせてチェックしてみてください!
統計学の用語やその他のAI用語を一挙にまとめた以下の記事も合わせて要チェックです!
正規分布の定義について解説!
青もオレンジも緑も全てパラメータが違うだけで全て正規分布にあたります。
\(f(x|μ,σ)\) = \(\frac{1}{\sqrt{2πσ^{2}}}\exp({-\frac{(x-μ)^{2}}{2σ^{2}}})\)
正規分布の性質について解説!
ここから正規分布の性質について解説していきます。まず正規分布の性質その1として、平均値・最頻値・中央値が一致していることが挙げられます!これは図を見ても明らかで、例えば平均0の正規分布は度数が最も大きいところも0,分布の中央も0なので一致していますね。
次に正規分布の性質その2として、平均を中心とした左右対称の釣鐘状の分布である点が挙げられます!これも図から明らかですね!
最後に正規分布の性質その3として、標準偏差によって分布の山が変化することが挙げられます!標準偏差を大きくすると分布の山が低くなり平らに近くなりますが、標準偏差を小さくすると山が高くなり全体的に細くなる特徴があります!
・平均値・最頻値・中央値が一致している!
・平均を中心とした左右対称の釣鐘状の分布である!
・標準偏差によって分布の形が変化する!
標準化について解説!
標準化とは平均0、標準偏差1になるようデータを変換することを言います。特に正規分布に従うデータを標準化した場合は、そのデータは標準正規分布に従うと言います。
\(x => \frac{(x-\bar{x})}{s}\)
\(f(x)\) = \(\frac{1}{\sqrt{2π}}-\exp({\frac{x^{2}}{2}})\)
そして標準化・標準正規分布はどのような場面で用いるのでしょうか?
標準化は変数間の単位をそろえたい場合に使います。
例えば重回帰分析を行った結果から、各変数の回帰係数を比較したいと考えます。この時身長の単位はm、体重の単位はkgの場合、単純な回帰係数の比較はしてはいけないのです!
もしなにか比較をするなら単位が同じもので比較するべきと考えます。
次に標準正規分布は事象の確率を知りたいときに使います。
例えばあるクラスの点数が正規分布に従っており、80点以上の人は何人いるか…といった問題で使います!
実際に正規分布をPythonで実装しよう!
それでは実際に正規分布をPythonで実装していきましょう!
正規分布はScipy.statsのnorm関数を用います。特に今回は標準正規分布と平均・標準偏差を変化させた5つの正規分布を生成します!
import numpy as np
from scipy.stats import norm
import matplotlib.pyplot as plt
%matplotlib inline
#データ生成
X = np.linspace(-10,10,101)
x = norm.pdf(X)
y = norm.pdf(X,5,1)
z = norm.pdf(X,0,5)
o = norm.pdf(X,-5,1)
p = norm.pdf(X,0,0.5)
#描画
fig,ax = plt.subplots(1,3,figsize=(20,5))
ax[0].plot(X,x,label="mu:0,sigma:1")
ax[0].legend()
ax[1].plot(X,y,label="mu:5,sigma:1")
ax[1].plot(X,z,label="mu:0,sigma:5")
ax[1].legend()
ax[2].plot(X,o,label="mu:-5,sigma:1")
ax[2].plot(X,p,label="mu:0,sigma:0.5")
ax[2].legend()
plt.show()
正規分布 まとめ
本記事では正規分布についてまとめました!
正規分布について理解できた方は、離散型分布の代表である一様分布、二項分布とポアソン分布を勉強すると良いでしょう!
確率分布は様々なものがあり、データや目的によって適切に使うことで初めて効果が表れる非常に優れたツールであると考えられます!確率分布だけでなく、統計学の知識やデータサイエンスの知識を得ることで、今までにない知見を身に付けることができます!
そうしたデータサイエンスの力を身に付けるためにはスタビジの記事やスクールを活用すると良いでしょう。
そして僕の経験を詰め込んだデータサイエンス特化のスクール「スタアカ(スタビジアカデミー)」を運営していますので,興味のある方はぜひチェックしてみてください!
AIデータサイエンス特化スクール「スタアカ」
【価格】 | ライトプラン:1280円/月 プレミアムプラン:149,800円 |
---|---|
【オススメ度】 | |
【サポート体制】 | |
【受講形式】 | オンライン形式 |
【学習範囲】 | データサイエンスを網羅的に学ぶ 実践的なビジネスフレームワークを学ぶ SQLとPythonを組みあわせて実データを使った様々なワークを行う マーケティングの実行プラン策定 マーケティングとデータ分析の掛け合わせで集客マネタイズ |
データサイエンティストとしての自分の経験をふまえてエッセンスを詰め込んだのがこちらのスタビジアカデミー、略して「スタアカ」!!
当メディアが運営するスクールです。
24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!
カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください!
他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。
そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解などもあわせて学べるボリューム満点のコースになっています!
Pythonが初めての人でも学べるようなカリキュラムしておりますので是非チェックしてみてください!
ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったり・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践してもらったりする盛りだくさんの内容になってます!
・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ
データサイエンスに関する記事はこちら!
データサイエンスを勉強できるスクールやサイトは、ぜひこちらを参考にしてみてください!