こんにちは!
データサイエンティストのウマたん(@statistics1012)です!
今回は確率分布について解説していきます!特に正規分布・二項分布といった具体的な確率分布の解説ではなく、そもそも確率分布とは?といった疑問を解消していきます。
確率分布とは「確率変数がとる値とそれに対応する確率を表した分布」と定義されています。特に確率分布には連続変数の連続型確率分布と離散変数の離散型確率分布の2つがあります!
この記事では、そんな確率分布の定義と関係性について解説していきます!
・確率分布の定義について解説!
・確率分布の性質について解説!
確率分布についてザックリ理解するには以下のYoutube動画も是非参考にしてみてください!
確率変数について解説!
確率変数とは「色々な値をとる事象が存在しており、それらの値をとる確率が決まっている変数」と定義されています!
初めに6つの目を持ったサイコロを考えていきましょう。この時、確率変数は「サイコロの目」であると考えられますね!先程の定義に当てはめてみると、サイコロの目は「1~6の値を持ち,それぞれに\(\frac{1}{6}\)の確率が対応している変数」だからです!
またコインも考えていきましょう。この時の確率変数は「コインの表裏」であると考えられますね!表裏の確率が\(\frac{1}{2}\)に対応しているからです!
確率分布について解説!
次は確率分布について解説していきます!
確率分布とは「確率変数とそれに対応した確率を表した分布」と定義されています!
先程のサイコロを例に考えてみると、サイコロの目(確率変数)をXとしたとき、確率変数がどの値をとっても確率は\(\frac{1}{6}\)となるので、以下の式で表すことができます!
\(P(X=1) = \frac{1}{6}\), \(P(X=2) = \frac{1}{6}\),…,\(P(X=6) = \frac{1}{6}\)
さて、確率変数と確率が分かったのでグラフで見ていきましょう!このグラフが一般的に確率分布と呼ばれています。
確率分布の種類・具体例について解説!
確率分布には離散型確率分布と連続型確率分布があります!これらの違いを表で見てみましょう!
離散型確率分布 | 確率変数が離散である。棒グラフで示す。 |
連続型確率分布 | 確率変数が連続である。線グラフで示す。 |
この表から、先程のサイコロの分布は離散型確率分布です!Xは1,2,3,4,5,6で示すことができ、棒グラフで示していましたからね!
次に連続型確率分布の例として身長を見ていきましょう!身長は170cmもあれば170.5cmや170.556といった連続的に示すことができますね。(170cm、180cmといった値が離れているのなら離散型ですが…)
次は実際に連続型確率分布を見ていきましょう!これは平均160cm、標準偏差が5の正規分布を表しています!
ここで注意したいのが縦軸は確率ではなく「確率密度」である点です。確率密度は確率とは違って「相対的な出やすさ」と覚えておきましょう。
確率変数が連続である場合取る値が無限に存在するので、ある値だけの確率は0になります。例えば身長が166cmである確率は\(P(X=166)=\frac{1}{∞}=0\)となりますね!
したがって、このグラフは一般的に確率密度関数\(f(x) = f(X=x(ある値))\)と呼ばれています!
では確率はどのように表すかというと、「確率密度と確率変数の範囲をかけた面積」で示します!身長の例から、ある値\(x\)が160cmから170cmに存在する確率を知りたいときに使えますね!
\(P(a <= X <= b) = \displaystyle \int_{a}^{b} f(x) dx\)
離散型確率分布の例はこちらを見ると良いでしょう!
連続型分布の例はこちらの記事を見てみましょう!
確率分布 まとめ
本記事では確率分布についてまとめました!
今回の内容について理解できた方は、離散型分布の代表である一様分布、二項分布とポアソン分布,そして連続型分布である正規分布,ガンマ分布と指数分布を勉強すると良いでしょう!
確率分布は様々なものがあり、データや目的によって適切に使うことで初めて効果が表れる非常に優れたツールであると考えられます!
統計学の用語やその他のAI用語を一挙にまとめた以下の記事も合わせて要チェックです!
確率分布だけでなく、統計学の知識やデータサイエンスの知識を得ることで、今までにない知見を身に付けることができます!
そうしたデータサイエンスの力を身に付けるためにはスタビジの記事やスクールを活用すると良いでしょう。
そして僕の経験を詰め込んだデータサイエンス特化のスクール「スタアカ(スタビジアカデミー)」を運営していますので,興味のある方はぜひチェックしてみてください!
AIデータサイエンス特化スクール「スタアカ」
【価格】 | ライトプラン:1280円/月 プレミアムプラン:149,800円 |
---|---|
【オススメ度】 | |
【サポート体制】 | |
【受講形式】 | オンライン形式 |
【学習範囲】 | データサイエンスを網羅的に学ぶ 実践的なビジネスフレームワークを学ぶ SQLとPythonを組みあわせて実データを使った様々なワークを行う マーケティングの実行プラン策定 マーケティングとデータ分析の掛け合わせで集客マネタイズ |
データサイエンティストとしての自分の経験をふまえてエッセンスを詰め込んだのがこちらのスタビジアカデミー、略して「スタアカ」!!
当メディアが運営するスクールです。
24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!
カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください!
他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。
そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解などもあわせて学べるボリューム満点のコースになっています!
Pythonが初めての人でも学べるようなカリキュラムしておりますので是非チェックしてみてください!
ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったり・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践してもらったりする盛りだくさんの内容になってます!
・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ
データサイエンスに関する記事はこちら!
データサイエンスを勉強できるスクールやサイトは、ぜひこちらを参考にしてみてください!