こんにちは!
データサイエンティストのウマたん(@statistics1012)です!
今回は歪度と尖度について解説していきます!
歪度は「分布が正規分布からどれだけ歪んでいるか表す指標」、尖度は「分布が正規分布からどれだけ尖っているか表す指標」と定義されています。
歪度と尖度を求めることで,データの分布が正規分布に近いものであるか確認することができ,分布の形もある程度推測することが可能になります。
この記事では、歪度と尖度の定義、そして正規分布である目安について解説していきます!
・歪度・尖度について解説!
・歪度・尖度の目安について解説!
歪度について解説!
それでは早速、歪度について解説していきましょう!
歪度とは「分布が正規分布からどれだけ歪んでいるか表す指標」と定義されていますが、歪んでるとはどのような意味なのでしょうか?
ここでの歪みとは「分布が左右対称からどれだけ離れているか」を意味しています。つまり右裾(左裾)が長い、あるいは左に偏った(右に偏った)分布は歪んでいると考えることができますね!
ここで歪度の定義式を見ていきましょう!\(x_{i}\)はデータ、\(\bar{x}\)は平均、\(n\)はサンプルサイズ、\(s\)は標準偏差を意味しています。
\(\frac{1}{n}\sum_{i=1}^{n}(\frac{x_{i}-\bar{x}}{s})^{3}\)
ここで注目すべきは各データを平均値から引いたものを3乗しているところです。
分布が左に偏っていて右裾が長い分布の場合は平均値が左に引っ張られるので全てのデータを平均値から引いたものを3乗して総和を計算すると合計は正の値になることが想像できると思います。
逆に右に偏っていて左裾が長居分布の場合は合計が負の値になることが想像できると思います。
また、正規分布であれば左右対称なので0になります。
実際にヒストグラムで見てみましょう!
これを見ると左右対称に近いほど0に近いことが分かりますね!
尖度について解説!
次に尖度は「分布が正規分布からどれだけ尖っているか表す指標」と定義されています。
ここでの尖りは「分布の山の尖り具合と裾の広がり度」を表しています。先程の歪みより想像がつきやすい概念だと分かりますね!
それでは尖度の定義式を見ていきましょう!\(x_{i}\)はデータ、\(\bar{x}\)は平均、\(n\)はサンプルサイズ、\(s\)は標準偏差を意味しています。
\(\frac{1}{n}\sum_{i=1}^{n}(\frac{x_{i}-\bar{x}}{s})^{4}\) – 3
この時、標準正規分布の尖度は0になります!
-3は標準正規分布の際に尖度が0になるように補正している部分になります。
標準正規分布より尖った分布、つまり分布の山が尖っており裾が重い分布は尖度が正になります。
次に標準正規分布より尖っていない分布、つまり分布の山が尖っておらず裾が薄い分布は尖度が負になります。
こちらもヒストグラムで見てみましょう!
分布が尖っているほど尖度が大きく、平たいと尖度が小さいことも分かりますね!
歪度と尖度 まとめ
本記事では歪度と尖度についてまとめました!
分布の形を見る際には平均値といった基本統計量も見ることで理解が深まりますので、是非こちらの記事もご覧ください!
このようなデータサイエンスの力を身に付けるためにはスタビジの記事やスクールを活用すると良いでしょう。
そして僕の経験を詰め込んだデータサイエンス特化のスクール「スタアカ(スタビジアカデミー)」を運営していますので,興味のある方はぜひチェックしてみてください!
AIデータサイエンス特化スクール「スタアカ」
【価格】 | ライトプラン:1280円/月 プレミアムプラン:149,800円 |
---|---|
【オススメ度】 | |
【サポート体制】 | |
【受講形式】 | オンライン形式 |
【学習範囲】 | データサイエンスを網羅的に学ぶ 実践的なビジネスフレームワークを学ぶ SQLとPythonを組み合わせて実データを使った様々なワークを行う マーケティングの実行プラン策定 マーケティングとデータ分析の掛け合わせで集客マネタイズ |
データサイエンティストとしての自分の経験をふまえてエッセンスを詰め込んだのがこちらのスタビジアカデミー、略して「スタアカ」!!
当メディアが運営するスクールです。
24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!
カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください!
他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。
そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解なども合わせて学べるボリューム満点のコースになっています!
Pythonが初めての人でも学べるようなカリキュラムしておりますので是非チェックしてみてください!
ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったり・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践してもらったりする盛りだくさんの内容になってます!
・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ
データサイエンスに関する記事はこちら!
データサイエンスを勉強できるスクールやサイトは、ぜひこちらを参考にしてみてください!