統計学

歪度と尖度について解説!定義と目安について分かりやすく!

尖度と歪度 アイキャッチ
記事内に商品プロモーションを含む場合があります
ウマたん
ウマたん
当サイト【スタビジ】の本記事では、尖度と歪度について解説してきます。尖度とは「分布が正規分布からどれだけ尖っているか表す指標」、歪度は「分布が正規分布からどれだけ歪んでいるか表す指標」と定義されています。歪度と尖度を求めることで、データの分布がどのような形状になっているかある程度分かるようになります。今回は歪度と尖度の定義と目安について解説していきます。

こんにちは!

データサイエンティストのウマたん(@statistics1012)です!

今回は歪度と尖度について解説していきます!

歪度は「分布が正規分布からどれだけ歪んでいるか表す指標」、尖度は「分布が正規分布からどれだけ尖っているか表す指標」と定義されています。

歪度と尖度を求めることで,データの分布が正規分布に近いものであるか確認することができ,分布の形もある程度推測することが可能になります。

ウマたん
ウマたん
歪度と尖度は統計検定2級の内容に含まれるくらい重要な概念ですので、この記事でしっかり理解を深めていきましょう!

この記事では、歪度と尖度の定義、そして正規分布である目安について解説していきます!

・歪度・尖度について解説!
・歪度・尖度の目安について解説!

歪度について解説!

python

それでは早速、歪度について解説していきましょう!

歪度とは「分布が正規分布からどれだけ歪んでいるか表す指標」と定義されていますが、歪んでるとはどのような意味なのでしょうか?

ここでの歪みとは「分布が左右対称からどれだけ離れているか」を意味しています。つまり右裾(左裾)が長い、あるいは左に偏った(右に偏った)分布は歪んでいると考えることができますね!

ここで歪度の定義式を見ていきましょう!\(x_{i}\)はデータ、\(\bar{x}\)は平均、\(n\)はサンプルサイズ、\(s\)は標準偏差を意味しています。

\(\frac{1}{n}\sum_{i=1}^{n}(\frac{x_{i}-\bar{x}}{s})^{3}\)

ここで注目すべきは各データを平均値から引いたものを3乗しているところです。

分布が左に偏っていて右裾が長い分布の場合は平均値が左に引っ張られるので全てのデータを平均値から引いたものを3乗して総和を計算すると合計は正の値になることが想像できると思います。

逆に右に偏っていて左裾が長居分布の場合は合計が負の値になることが想像できると思います。

また、正規分布であれば左右対称なので0になります。

実際にヒストグラムで見てみましょう!

歪度

これを見ると左右対称に近いほど0に近いことが分かりますね!

尖度について解説!

pc python

次に尖度は「分布が正規分布からどれだけ尖っているか表す指標」と定義されています。

ここでの尖りは「分布の山の尖り具合と裾の広がり度」を表しています。先程の歪みより想像がつきやすい概念だと分かりますね!

それでは尖度の定義式を見ていきましょう!\(x_{i}\)はデータ、\(\bar{x}\)は平均、\(n\)はサンプルサイズ、\(s\)は標準偏差を意味しています。

\(\frac{1}{n}\sum_{i=1}^{n}(\frac{x_{i}-\bar{x}}{s})^{4}\) – 3

この時、標準正規分布の尖度は0になります!

-3は標準正規分布の際に尖度が0になるように補正している部分になります。

標準正規分布より尖った分布、つまり分布の山が尖っており裾が重い分布は尖度が正になります。

次に標準正規分布より尖っていない分布、つまり分布の山が尖っておらず裾が薄い分布は尖度が負になります。

こちらもヒストグラムで見てみましょう!

尖度

分布が尖っているほど尖度が大きく、平たいと尖度が小さいことも分かりますね!

歪度と尖度 まとめ

Happy

本記事では歪度と尖度についてまとめました!

分布の形を見る際には平均値といった基本統計量も見ることで理解が深まりますので、是非こちらの記事もご覧ください!

中央値・平均値・最頻値
中央値と平均値と最頻値はどう違う!?使い分けや求め方について図解解説!当サイト【スタビジ】の本記事では、中央値・平均値・最頻値について解説していきます!これらの指標はデータの分布に表す非常に重要な指標です!今回は中央値・平均値・最頻値の定義について解説しつつ、これら3つの指標の違いや使い分けの方法、求め方について解説してPythonで実装していきます!...

このようなデータサイエンスの力を身に付けるためにはスタビジの記事やスクールを活用すると良いでしょう。

そして僕の経験を詰め込んだデータサイエンス特化のスクール「スタアカ(スタビジアカデミー)」を運営していますので,興味のある方はぜひチェックしてみてください!

AIデータサイエンス特化スクール「スタアカ」

スタアカトップ
【価格】ライトプラン:1280円/月
プレミアムプラン:149,800円
【オススメ度】
【サポート体制】
【受講形式】オンライン形式
【学習範囲】データサイエンスを網羅的に学ぶ
実践的なビジネスフレームワークを学ぶ
SQLとPythonを組み合わせて実データを使った様々なワークを行う
マーケティングの実行プラン策定
マーケティングとデータ分析の掛け合わせで集客マネタイズ

データサイエンティストとしての自分の経験をふまえてエッセンスを詰め込んだのがこちらのスタビジアカデミー、略して「スタアカ」!!

当メディアが運営するスクールです。

24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!

カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください!

他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。

そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解なども合わせて学べるボリューム満点のコースになっています!

Pythonが初めての人でも学べるようなカリキュラムしておりますので是非チェックしてみてください!

ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったり・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践してもらったりする盛りだくさんの内容になってます!

・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ

データサイエンスに関する記事はこちら!

【初心者必見】統計学入門に必要な知識と独学勉強方法を簡単に学ぼう!当ブログ【スタビジ】の本記事では、統計学入門に必要な知識をカンタンにまとめ、それらをどのように効率的に独学で勉強していけばよいかをお話ししていきます。統計学は難しいイメージが少しありますが、学び方をしっかり考えれば大丈夫!...
デーサイエンス本
【データサイエンティスト厳選18冊】データサイエンスを学ぶ上でオススメな本・教材!当ブログ【スタビジ】の本記事では、データサイエンスを学ぶ上でオススメできる本を厳選して紹介していきます。ここではデータサイエンティストになるために習得するスキルをデータサイエンスと称しております。いくつかの観点に切り分けて見ていきます。...

データサイエンスを勉強できるスクールやサイトは、ぜひこちらを参考にしてみてください!

データサイエンティスト スクール
【徹底比較】データサイエンティストのための学習ができるスクール9選! スクール名 オススメ度 価格の安さ サポート体制 公式サイト テックアカデミー ...
スタビジアカデミーでデータサイエンスをさらに深く学ぼう!

スタアカサービスバナースタビジのコンテンツをさらに深堀りしたコンテンツが動画と一緒に学べるスクールです。

プレミアムプランでは私がマンツーマンで伴走させていただきます!ご受講お待ちしております!

スタビジアカデミーはこちら