統計学

正規分布について解説!基礎的な知識から標準化まで!

正規分布 アイキャッチ
記事内に商品プロモーションを含む場合があります
ウマたん
ウマたん
当サイト【スタビジ】の本記事では、正規分布について解説していきます!正規分布は連続的分布の一つでもある基本的な分布であり、統計学・機械学習において非常に重要な役割を持ちます。今回は正規分布の定義を解説しつつ、平均・分散といった基本的な要素と標準化について解説していきます。

こんにちは!

デジタルマーケター兼データサイエンティストのウマたん(@statistics1012)です!

今回解説する正規分布は確率分布の中で最も重要な分布といっても過言ではないくらい、様々な分野で使われています。

日常のあらゆる事象は正規分布に従っていることが多いです。例えば日本人の同じ年齢・性別の身長の分布は正規分布に従っていることが分かっています!

また複数のサイコロを振った際の平均値も正規分布に従うこともわかっています。このサイコロの例については二項分布の記事を見ると良いでしょう!

この記事では、そんな正規分布の定義を解説をしながらもその性質について解説していきます。またPythonで正規分布を実装してみましょう!

・正規分布の定義について解説!
・正規分布の性質について解説!
・Pythonで正規分布を見てみよう!

正規分布について動画で学びたい方は以下のYoutube動画もあわせてチェックしてみてください!

正規分布の定義について解説!

stories Data-pana
ロボたん
ロボたん
早速正規分布の解説だね!まず正規分布ってどんな分布なのかな?
ウマたん
ウマたん
正規分布は非常にシンプルな確率分布なんだ。特徴的な形として左右対称な釣鐘状である点なんだ!こんな分布!
正規分布

青もオレンジも緑も全てパラメータが違うだけで全て正規分布にあたります。

ウマたん
ウマたん
続いて正規分布の確率密度関数を見ていこう!

\(f(x|μ,σ)\) = \(\frac{1}{\sqrt{2πσ^{2}}}\exp({-\frac{(x-μ)^{2}}{2σ^{2}}})\)

ロボたん
ロボたん
数式を見ただけだとものすごい難しそうだ…
ウマたん
ウマたん
重要なのは数式を覚えることではなく、正規分布の性質について理解を深めることだと思うよ!

まずこの式から、パラメトリックな分布であることが分かるね。つまり平均\(μ\)、標準偏差\(σ\)によって分布の形が変わることが予想できるんだ!

正規分布の性質について解説!

stories Memory storage
ウマたん
ウマたん
ここから正規分布の性質について解説していこう!さきほどの正規分布の形を見てみよう!

 

正規分布
ウマたん
ウマたん
これを見ると平均を変化させると形はそのままで中心が移動するけど、標準偏差を変化させると中心はそのままで形が変化することが分かるね!これは先程述べたパラメトリックな分布、つまり分布は平均と標準偏差に依存していることが分かるんだ!

ここから正規分布の性質について解説していきます。まず正規分布の性質その1として、平均値・最頻値・中央値が一致していることが挙げられます!これは図を見ても明らかで、例えば平均0の正規分布は度数が最も大きいところも0,分布の中央も0なので一致していますね。

次に正規分布の性質その2として、平均を中心とした左右対称の釣鐘状の分布である点が挙げられます!これも図から明らかですね!

最後に正規分布の性質その3として、標準偏差によって分布の山が変化することが挙げられます!標準偏差を大きくすると分布の山が低くなり平らに近くなりますが、標準偏差を小さくすると山が高くなり全体的に細くなる特徴があります!

正規分布の性質

・平均値・最頻値・中央値が一致している!
・平均を中心とした左右対称の釣鐘状の分布である!
・標準偏差によって分布の形が変化する!

標準化について解説!

Analytics
ロボたん
ロボたん
正規分布の性質は分かったけど、どういうときに使えばいいの?
ウマたん
ウマたん
正規分布の中でも最も使うのは標準化!この標準化と標準正規分布表を用いることで、事象の確率を推定できるんだ!

標準化とは平均0、標準偏差1になるようデータを変換することを言います。特に正規分布に従うデータを標準化した場合は、そのデータは標準正規分布に従うと言います。

ウマたん
ウマたん
標準化と標準正規分布の確率密度関数は以下の通り!標準正規分布に関しては、正規分布の確率密度関数の平均に0、標準偏差に1を代入したものになるね!

\(x => \frac{(x-\bar{x})}{s}\)

\(f(x)\) = \(\frac{1}{\sqrt{2π}}-\exp({\frac{x^{2}}{2}})\)

そして標準化・標準正規分布はどのような場面で用いるのでしょうか?

標準化は変数間の単位をそろえたい場合に使います。

例えば重回帰分析を行った結果から、各変数の回帰係数を比較したいと考えます。この時身長の単位はm、体重の単位はkgの場合、単純な回帰係数の比較はしてはいけないのです!

もしなにか比較をするなら単位が同じもので比較するべきと考えます。

標準化

次に標準正規分布は事象の確率を知りたいときに使います。

例えばあるクラスの点数が正規分布に従っており、80点以上の人は何人いるか…といった問題で使います!

標準正規分布
ウマたん
ウマたん
特に標準化は様々な手法で使うので、覚えておきたい概念だね!

実際に正規分布をPythonで実装しよう!

stories pc

それでは実際に正規分布をPythonで実装していきましょう!

正規分布はScipy.statsのnorm関数を用います。特に今回は標準正規分布と平均・標準偏差を変化させた5つの正規分布を生成します!

import numpy as np
from scipy.stats import norm
import matplotlib.pyplot as plt
%matplotlib inline

#データ生成
X = np.linspace(-10,10,101)
x = norm.pdf(X)
y = norm.pdf(X,5,1)
z = norm.pdf(X,0,5)
o = norm.pdf(X,-5,1)
p = norm.pdf(X,0,0.5)

#描画
fig,ax = plt.subplots(1,3,figsize=(20,5))
ax[0].plot(X,x,label="mu:0,sigma:1")
ax[0].legend()
ax[1].plot(X,y,label="mu:5,sigma:1")
ax[1].plot(X,z,label="mu:0,sigma:5")
ax[1].legend()
ax[2].plot(X,o,label="mu:-5,sigma:1")
ax[2].plot(X,p,label="mu:0,sigma:0.5")
ax[2].legend()
plt.show()
ウマたん
ウマたん
平均、標準偏差を変化させることで分布の形も変化していることが分かるね!
正規分布

正規分布 まとめ

Happy

本記事では正規分布についてまとめました!

正規分布について理解できた方は、離散型分布の代表である一様分布二項分布ポアソン分布を勉強すると良いでしょう!

二項分布 アイキャッチ
二項分布について解説!定義と期待値・分散の計算、正規分布への近似について!当サイト【スタビジ】の本記事では、二項分布について解説していきます!二項分布は代表的な離散的分布の一つです。今回は二項分布の定義を解説しつつ、平均・分散といった基本的な要素も解説していきます。...
ポアソン分布
ポアソン分布について図で分かりやすく解説!二項分布から平均と分散の計算方法は?当サイト【スタビジ】の本記事では、ポアソン分布について解説していきます!ポアソン分布とは、ある事象が一定の時間に発生する回数を示す離散的な分布の1つであり、単位時間当たり平均λ回起こるような事象が単位時間にk回発生する分布を表しています!今回はポアソン分布の定義を解説しつつ、平均・分散といった基本的な要素も解説していきます。...

確率分布は様々なものがあり、データや目的によって適切に使うことで初めて効果が表れる非常に優れたツールであると考えられます!確率分布だけでなく、統計学の知識やデータサイエンスの知識を得ることで、今までにない知見を身に付けることができます!

そうしたデータサイエンスの力を身に付けるためにはスタビジの記事やスクールを活用すると良いでしょう。

そして僕の経験を詰め込んだデータサイエンス特化のスクール「スタアカ(スタビジアカデミー)」を運営していますので,興味のある方はぜひチェックしてみてください!

AIデータサイエンス特化スクール「スタアカ」

スタアカトップ
【価格】ライトプラン:980円/月
プレミアムプラン:98,000円
【オススメ度】
【サポート体制】
【受講形式】オンライン形式
【学習範囲】データサイエンスを網羅的に学ぶ
実践的なビジネスフレームワークを学ぶ
SQLとPythonを組みあわせて実データを使った様々なワークを行う
マーケティングの実行プラン策定
マーケティングとデータ分析の掛け合わせで集客マネタイズ

データサイエンティストとしての自分の経験をふまえてエッセンスを詰め込んだのがこちらのスタビジアカデミー、略して「スタアカ」!!

当メディアが運営するスクールです。

24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!

カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください!

他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。

そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解などもあわせて学べるボリューム満点のコースになっています!

Pythonが初めての人でも学べるようなカリキュラムしておりますので是非チェックしてみてください!

ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったり・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践してもらったりする盛りだくさんの内容になってます!

・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ

データサイエンスに関する記事はこちら!

統計学入門に必要な知識と独学勉強方法を簡単に学ぼう!当ブログ【スタビジ】の本記事では、統計学入門に必要な知識をカンタンにまとめ、それらをどのように効率的に独学で勉強していけばよいかをお話ししていきます。統計学は難しいイメージが少しありますが、学び方をしっかり考えれば大丈夫!...
デーサイエンス本
【データサイエンティスト厳選18冊】データサイエンスを学ぶ上でオススメな本・教材!当ブログ【スタビジ】の本記事では、データサイエンスを学ぶ上でオススメできる本を厳選して紹介していきます。ここではデータサイエンティストになるために習得するスキルをデータサイエンスと称しております。いくつかの観点に切り分けて見ていきます。...

データサイエンスを勉強できるスクールやサイトは、ぜひこちらを参考にしてみてください!

データサイエンティスト スクール
【徹底比較】データサイエンティストのための学習ができるスクール9選! スクール名 オススメ度 価格の安さ サポート体制 公式サイト テックアカデミー ...
スタビジアカデミーでデータサイエンスをさらに深く学ぼう!

スタアカサービスバナースタビジのコンテンツをさらに深堀りしたコンテンツが動画と一緒に学べるスクールです。

プレミアムプランでは私がマンツーマンで伴走させていただきます!ご受講お待ちしております!

スタビジアカデミーはこちら