統計学

中央値と平均値と最頻値はどう違う!?使い分けや求め方について図解解説!

中央値・平均値・最頻値
記事内に商品プロモーションを含む場合があります
ウマたん
ウマたん
当サイト【スタビジ】の本記事では、中央値・平均値・最頻値について解説していきます!これらの指標はデータの分布に表す非常に重要な指標です!今回は中央値・平均値・最頻値の定義について解説しつつ、これら3つの指標の違いや使い分けの方法、求め方について解説してPythonで実装していきます!

こんにちは!

デジタルマーケター兼データサイエンティストのウマたん(@statistics1012)です!

データの傾向・性質を見る指標はたくさんありますが、統計学においてデータを代表する値を示す「代表値」は最も重要であると言えるでしょう!

代表値の例として、中央値・平均値・最頻値の3つが挙げられます!これら3つは「データの中心を表す値」であり、分布の形によって使い分ける必要があります。

この記事では代表値である中央値・平均値・最頻値の解説を行い、それらの違いについても解説しつつ、Pythonで実装していきます!

・中央値・平均値・最頻値について解説!
・3つの代表値の違いについて解説!
・Pythonで代表値を実装!

データの傾向を見る指標として分散と標準偏差もあるので,こちらの記事も参考にするとよいでしょう!

分散の求め方!不偏分散と標本分散の違い当サイト【スタビジ】の本記事では、分散について解説していきます!分散とは「データの散らばり具合を示す」重要な指標となっています。今回は分散の定義について解説しつつ、分散のなかでも標本分散と不偏分散の違いについて解説してPythonで実装していきます!...

中央値・平均値・最頻値の違いについては以下の動画でも解説しているのでチェックしてみてください!

中央値・平均値・最頻値について

Stories

3つの代表値について、それぞれ解説を行っていきましょう!

初めに中央値です!中央値は「母集団の分布の中央を表す値」です。

中央値

このようにサンプルサイズ\(n\)が奇数個の場合は真ん中の値をとりますが、偶数個の場合は中央の2つを足して2で割った値となっていることが分かります!

次に平均値です!平均値は「サンプルの値の総和をサンプルサイズで割った値」です。

平均値

平均値もデータの中央を表す指標であることが分かりますね!

最後に最頻値です!最頻値は「最も度数が大きい値」です。

最頻値

特にヒストグラムから最頻値を求める場合、最も度数が大きい階級の階級値とします!

ロボたん
ロボたん
どれもデータの傾向を見れる重要な指標だね!でもどうやって使い分けするべきなんだろう?
ウマたん
ウマたん
次は中央値・平均値・最頻値の違いについて解説するよ!

中央値・平均値・最頻値の違いについて

quiz

先程の解説から、中央値・平均値・最頻値は「データの中央を示す値」であることが分かりました。

これらの最も大きな違いは外れ値に対するロバスト性(頑健性)が挙げられます!

外れ値
ロボたん
ロボたん
これを見ると平均値は100という外れ値の影響が大きいことが分かるね!
ウマたん
ウマたん
その通り!平均値は一つの値が大きな値をとってしまうと,その値の影響を受けやすいんだ。一方、最頻値と中央値は外れ値があってもほぼ影響を受けないことが分かるね!

またデータの分布の影響も考えられます。正規分布のような単峰形の分布は中央値=平均値=最頻値となりますが、データの分布に歪みがある場合は注意する必要があります。

ウマたん
ウマたん
データの分布や手法によって、適切に選択することが重要なんだ!

実際に中央値・平均値・最頻値をPythonで実装してみよう!

Data report

最後にPythonで実装しましょう!

中央値・平均値はNumpyライブラリのmedian関数、mean関数で算出することができます!また最頻値はNumpyライブラリのunique関数から一意の値を取り出し、Numpyライブラリのargmax関数で頻度が最も高い値を算出します!

import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

#離散データ
A = [0,0,1,1,2,2,3,4,4,5,6,6,7,7,8,9,9,10,10,10]

#ヒストグラム
plt.hist(A)
plt.show()

#中央値
print("中央値:"+str(np.median(A)))

#平均値
print("平均値:"+str(np.mean(A)))

#最頻値
#np.unique()はリストの一意な値をとる関数
#np.argmax()は最も大きい要素のインデックス番号をとる関数
#したがってfreq(頻度)が最も大きいインデックス番号を取って,unique(一意な値)からそのインデックス番号を参照する
unique,freq = np.unique(A,return_counts=True)
print("値:"+str(unique),"頻度:"+str(freq))
print("最頻値:"+str(unique[np.argmax(freq)]))
ウマたん
ウマたん
離散的なデータを生成して、中央値・平均値・最頻値を求めてみると…?
結果

中央値・平均値・最頻値のまとめ

Stories

本記事では中央値・平均値・最頻値の違いについてまとめました!

データの性質・傾向を見るために、データの中央を見ることは非常に重要です!ヒストグラムからデータの分布を見る癖や、データのばらつきに着目するとデータに対する理解が深まるでしょう!

また代表値とは異なりますが、外れ値という値も注目してみると良いでしょう!

外れ値 アイキャッチ
外れ値の定義と外れ値の箱ひげ図や標準偏差での求め方について解説!当サイト【スタビジ】の本記事では、外れ値について解説してきます。外れ値とは「測定された値の中で、他の値とはかけ離れている値」と定義されています。分析において外れ値を処理しないと統計指標がゆがむ可能性が大きくなるため、対処方法を知っておく必要があります。今回は外れ値の定義と外れ値の対処方法について解説します!...
ウマたん
ウマたん
さまざまな値を見比べて、データの特徴を把握しよう!

また、そうしたデータサイエンスの力を身に付けるためにはスタビジの記事やスクールを活用すると良いでしょう。

そして僕の経験を詰め込んだデータサイエンス特化のスクール「スタアカ(スタビジアカデミー)」を運営していますので,興味のある方はぜひチェックしてみてください!

AIデータサイエンス特化スクール「スタアカ」

スタアカトップ
【価格】ライトプラン:1280円/月
プレミアムプラン:149,800円
【オススメ度】
【サポート体制】
【受講形式】オンライン形式
【学習範囲】データサイエンスを網羅的に学ぶ
実践的なビジネスフレームワークを学ぶ
SQLとPythonを組みあわせて実データを使った様々なワークを行う
マーケティングの実行プラン策定
マーケティングとデータ分析の掛け合わせで集客マネタイズ

データサイエンティストとしての自分の経験をふまえてエッセンスを詰め込んだのがこちらのスタビジアカデミー、略して「スタアカ」!!

当メディアが運営するスクールです。

24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!

カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください!

他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。

そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解などもあわせて学べるボリューム満点のコースになっています!

Pythonが初めての人でも学べるようなカリキュラムしておりますので是非チェックしてみてください!

ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったり・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践してもらったりする盛りだくさんの内容になってます!

・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ

データサイエンスに関する記事はこちら!

統計学入門に必要な知識と独学勉強方法を簡単に学ぼう!当ブログ【スタビジ】の本記事では、統計学入門に必要な知識をカンタンにまとめ、それらをどのように効率的に独学で勉強していけばよいかをお話ししていきます。統計学は難しいイメージが少しありますが、学び方をしっかり考えれば大丈夫!...
デーサイエンス本
【データサイエンティスト厳選18冊】データサイエンスを学ぶ上でオススメな本・教材!当ブログ【スタビジ】の本記事では、データサイエンスを学ぶ上でオススメできる本を厳選して紹介していきます。ここではデータサイエンティストになるために習得するスキルをデータサイエンスと称しております。いくつかの観点に切り分けて見ていきます。...

データサイエンスを勉強できるスクールやサイトは、ぜひこちらを参考にしてみてください!

データサイエンティスト スクール
【徹底比較】データサイエンティストのための学習ができるスクール9選! スクール名 オススメ度 価格の安さ サポート体制 公式サイト テックアカデミー ...
スタビジアカデミーでデータサイエンスをさらに深く学ぼう!

スタアカサービスバナースタビジのコンテンツをさらに深堀りしたコンテンツが動画と一緒に学べるスクールです。

プレミアムプランでは私がマンツーマンで伴走させていただきます!ご受講お待ちしております!

スタビジアカデミーはこちら