統計学

外れ値の定義と外れ値の箱ひげ図や標準偏差での求め方について解説!

外れ値 アイキャッチ
記事内に商品プロモーションを含む場合があります
ウマたん
ウマたん
当サイト【スタビジ】の本記事では、外れ値について解説してきます。外れ値とは「測定された値の中で、他の値とはかけ離れている値」と定義されています。分析において外れ値を処理しないと統計指標がゆがむ可能性が大きくなるため、対処方法を知っておく必要があります。今回は外れ値の定義と外れ値の箱ひげ図や標準偏差での求め方について解説します!

こんにちは!

データサイエンティストのウマたん(@statistics1012)です!

今回は外れ値について解説していきます!外れ値とは「測定された値の中で、他の値とはかけ離れている値」と定義されています。外れ値を対処しないと予測結果が大きく悪化したり、データを間違った方向で読み取る可能性が非常に高くなります。

ウマたん
ウマたん
外れ値は予測結果や指標に悪影響を与えるだけでなく、データそのものが歪んでしまうことがあります!そのため適切な対処方法を知っておくことで、正しい結果を出すことができますね!

この記事では、外れ値の定義とその対処方法について解説します!

・外れ値について解説!
・外れ値の対処方法について解説!

外れ値に関しては以下のYoutube動画でも詳しく解説しているのであわせてチェックしてみてください!

外れ値について解説!

Analytics

外れ値とは「測定された値の中で、他の値とはかけ離れている値」と定義されています。例えば観測されたデータから見た分布において、明らかにおかしい値は外れ値と呼ばれます。

外れ値 ヒストグラム
ウマたん
ウマたん
このヒストグラムを見ると、値が100付近のデータが外れ値と考えられるね!このようにデータを可視化することで外れ値があるかわかるよ!

一方、体重を測ったデータから-999という値があった場合は外れ値と呼ぶのでしょうか?

確かに一般的な体重からかけ離れているため外れ値を考えがちですが、そもそも-999は物理的にとりえる値なのでしょうか?このような「入力ミス・測定ミスなどで生じた有り得ない値」を異常値と呼びます。

ウマたん
ウマたん
かなり細かいけど、外れ値と異常値の定義は異なるので混同しないように注意しよう!

外れ値の検出方法について解説!

Stories

次は外れ値の検出方法について解説します!

ロボたん
ロボたん
外れ値を探すには難しい手法が必要なのかな…?
ウマたん
ウマたん
ケースバイケースだけど、データを可視化するだけでも探すことができるので簡単な方から見ていこう!

箱ひげ図

箱ひげ図

箱ひげ図は一次元のデータにおける外れ値を検出することができます!ここではその特徴について解説していきます!

箱ひげ図にはIQR(四分位範囲)があります。これはQ3(第3四分位数)ーQ1(第1四分位数)といったデータの範囲を表しています!第3四分位数・第1四分位数はQ2(第2四分位数)、すなわちデータ全体の中央値から最大値・最小値の間の中央値を意味します!

そしてなんと、箱ひげ図には外れ値の定義がされています!

\(外れ値=第1四分位数-1.5×IQR, 第3四分位数+1.5×IQR\)

これを見ることで、データに外れ値があるか確認できます!

先ほどのヒストグラムのデータを、箱ひげ図で見てみましょう!

外れ値 箱ひげ図

丸が外れ値、オレンジ色の線が第2四分位数(中央値)、長い線が第1・3四分位数、短い線が最小値・最大値を示しています!

先ほどのヒストグラムと同様に、100付近の値が外れ値であることが容易にわかりますね!

標準偏差

3σ

統計的な手法として、標準偏差σを用いた外れ値の検出があります!一般的には3σルールと呼ばれている手法です!

\(外れ値=平均±3σ\)

ウマたん
ウマたん
見ると非常に簡単な方法です!ただし必要な条件に気を付ける必要があります!

ただしこの方法はデータが正規分布に従っていることが前提となります!したがって正規分布に従っていないとわかった場合は使えないことに注意してください!(対数変換することで正規分布に近づける方法もありますが省きます)

外れ値に対する考え方

外れ値の考え方

以上の手法の解説から、最後は検出方法というよりも心構えの話をします!

初めに「異常値であるかを検討する」必要があります!つまり検出した外れ値が説明可能であるか検討すると言い換えることができます。

どちらも異常な値だからどちらにしろ消していいのでは?と思いがちですが、ただの入力ミスなのか、それとも本当にその値だったのかで、分析のストーリが大幅に変化する可能性が高いので注意するべきです。

次に「本当に外れ値を除去していいか」確認する必要があります。

予測指標の向上といった目的で外れ値を除去することはもちろん良いです。特に外れ値を除去することで、より汎用的な機械学習モデルを作成できます。

しかし外れ値そのものが必要である状況があります。

例として異常検知を行う場合、外れ値を除去してしまうことで異常データの品質が落ちてしまうといったことが考えられます。

また、お店の需要予測でセール時期の大きな売上は外れ値になりがちですが、しっかりそのようなセール期間の売上も予測する必要があるでしょう!

したがって、自分がこれから行うデータ分析の目的と照らしあわせて除去するか考えましょう!

外れ値 まとめ

Happy

本記事では外れ値についてまとめました!

外れ値の検出方法である箱ひげ図はこちらの記事で解説しているので、ぜひ見てくださいね!

箱ひげ図
【5分で分かる】箱ひげ図のPythonでの書き方を学ぼう! こんにちは!スタビジ編集部です! この記事では"箱ひげ図"について解説したあと、実際にPythonでデータを入力して箱ひげ...

また外れ値だけでなく代表値である平均値・中央値・最頻値の見方を覚えておくと良いでしょう!

中央値・平均値・最頻値
中央値と平均値と最頻値はどう違う!?使い分けや求め方について図解解説!当サイト【スタビジ】の本記事では、中央値・平均値・最頻値について解説していきます!これらの指標はデータの分布に表す非常に重要な指標です!今回は中央値・平均値・最頻値の定義について解説しつつ、これら3つの指標の違いや使い分けの方法、求め方について解説してPythonで実装していきます!...

このようなデータサイエンスの力を身に付けるためにはスタビジの記事やスクールを活用すると良いでしょう。

そして僕の経験を詰め込んだデータサイエンス特化のスクール「スタアカ(スタビジアカデミー)」を運営していますので,興味のある方はぜひチェックしてみてください!

AIデータサイエンス特化スクール「スタアカ」

スタアカトップ
【価格】ライトプラン:1280円/月
プレミアムプラン:149,800円
【オススメ度】
【サポート体制】
【受講形式】オンライン形式
【学習範囲】データサイエンスを網羅的に学ぶ
実践的なビジネスフレームワークを学ぶ
SQLとPythonを組みあわせて実データを使った様々なワークを行う
マーケティングの実行プラン策定
マーケティングとデータ分析の掛け合わせで集客マネタイズ

データサイエンティストとしての自分の経験をふまえてエッセンスを詰め込んだのがこちらのスタビジアカデミー、略して「スタアカ」!!

当メディアが運営するスクールです。

24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!

カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください!

他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。

そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解などもあわせて学べるボリューム満点のコースになっています!

Pythonが初めての人でも学べるようなカリキュラムしておりますので是非チェックしてみてください!

ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったり・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践してもらったりする盛りだくさんの内容になってます!

・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ

データサイエンスに関する記事はこちら!

統計学入門に必要な知識と独学勉強方法を簡単に学ぼう!当ブログ【スタビジ】の本記事では、統計学入門に必要な知識をカンタンにまとめ、それらをどのように効率的に独学で勉強していけばよいかをお話ししていきます。統計学は難しいイメージが少しありますが、学び方をしっかり考えれば大丈夫!...
デーサイエンス本
【データサイエンティスト厳選18冊】データサイエンスを学ぶ上でオススメな本・教材!当ブログ【スタビジ】の本記事では、データサイエンスを学ぶ上でオススメできる本を厳選して紹介していきます。ここではデータサイエンティストになるために習得するスキルをデータサイエンスと称しております。いくつかの観点に切り分けて見ていきます。...

データサイエンスを勉強できるスクールやサイトは、ぜひこちらを参考にしてみてください!

データサイエンティスト スクール
【徹底比較】データサイエンティストのための学習ができるスクール9選! スクール名 オススメ度 価格の安さ サポート体制 公式サイト テックアカデミー ...
スタビジアカデミーでデータサイエンスをさらに深く学ぼう!

スタアカサービスバナースタビジのコンテンツをさらに深堀りしたコンテンツが動画と一緒に学べるスクールです。

プレミアムプランでは私がマンツーマンで伴走させていただきます!ご受講お待ちしております!

スタビジアカデミーはこちら