こんにちは!
データサイエンティストのウマたん(@statistics1012)です!
今回は外れ値について解説していきます!外れ値とは「測定された値の中で、他の値とはかけ離れている値」と定義されています。外れ値を対処しないと予測結果が大きく悪化したり、データを間違った方向で読み取る可能性が非常に高くなります。
この記事では、外れ値の定義とその対処方法について解説します!
・外れ値について解説!
・外れ値の対処方法について解説!
外れ値に関しては以下のYoutube動画でも詳しく解説しているのであわせてチェックしてみてください!
外れ値について解説!
外れ値とは「測定された値の中で、他の値とはかけ離れている値」と定義されています。例えば観測されたデータから見た分布において、明らかにおかしい値は外れ値と呼ばれます。
一方、体重を測ったデータから-999という値があった場合は外れ値と呼ぶのでしょうか?
確かに一般的な体重からかけ離れているため外れ値を考えがちですが、そもそも-999は物理的にとりえる値なのでしょうか?このような「入力ミス・測定ミスなどで生じた有り得ない値」を異常値と呼びます。
外れ値の検出方法について解説!
次は外れ値の検出方法について解説します!
箱ひげ図
箱ひげ図は一次元のデータにおける外れ値を検出することができます!ここではその特徴について解説していきます!
箱ひげ図にはIQR(四分位範囲)があります。これはQ3(第3四分位数)ーQ1(第1四分位数)といったデータの範囲を表しています!第3四分位数・第1四分位数はQ2(第2四分位数)、すなわちデータ全体の中央値から最大値・最小値の間の中央値を意味します!
そしてなんと、箱ひげ図には外れ値の定義がされています!
\(外れ値=第1四分位数-1.5×IQR, 第3四分位数+1.5×IQR\)
これを見ることで、データに外れ値があるか確認できます!
先ほどのヒストグラムのデータを、箱ひげ図で見てみましょう!
丸が外れ値、オレンジ色の線が第2四分位数(中央値)、長い線が第1・3四分位数、短い線が最小値・最大値を示しています!
先ほどのヒストグラムと同様に、100付近の値が外れ値であることが容易にわかりますね!
標準偏差
統計的な手法として、標準偏差σを用いた外れ値の検出があります!一般的には3σルールと呼ばれている手法です!
\(外れ値=平均±3σ\)
ただしこの方法はデータが正規分布に従っていることが前提となります!したがって正規分布に従っていないとわかった場合は使えないことに注意してください!(対数変換することで正規分布に近づける方法もありますが省きます)
外れ値に対する考え方
以上の手法の解説から、最後は検出方法というよりも心構えの話をします!
初めに「異常値であるかを検討する」必要があります!つまり検出した外れ値が説明可能であるか検討すると言い換えることができます。
どちらも異常な値だからどちらにしろ消していいのでは?と思いがちですが、ただの入力ミスなのか、それとも本当にその値だったのかで、分析のストーリが大幅に変化する可能性が高いので注意するべきです。
次に「本当に外れ値を除去していいか」確認する必要があります。
予測指標の向上といった目的で外れ値を除去することはもちろん良いです。特に外れ値を除去することで、より汎用的な機械学習モデルを作成できます。
しかし外れ値そのものが必要である状況があります。
例として異常検知を行う場合、外れ値を除去してしまうことで異常データの品質が落ちてしまうといったことが考えられます。
また、お店の需要予測でセール時期の大きな売上は外れ値になりがちですが、しっかりそのようなセール期間の売上も予測する必要があるでしょう!
したがって、自分がこれから行うデータ分析の目的と照らしあわせて除去するか考えましょう!
外れ値 まとめ
本記事では外れ値についてまとめました!
外れ値の検出方法である箱ひげ図はこちらの記事で解説しているので、ぜひ見てくださいね!
また外れ値だけでなく代表値である平均値・中央値・最頻値の見方を覚えておくと良いでしょう!
このようなデータサイエンスの力を身に付けるためにはスタビジの記事やスクールを活用すると良いでしょう。
そして僕の経験を詰め込んだデータサイエンス特化のスクール「スタアカ(スタビジアカデミー)」を運営していますので,興味のある方はぜひチェックしてみてください!
AIデータサイエンス特化スクール「スタアカ」
【価格】 | ライトプラン:1280円/月 プレミアムプラン:149,800円 |
---|---|
【オススメ度】 | |
【サポート体制】 | |
【受講形式】 | オンライン形式 |
【学習範囲】 | データサイエンスを網羅的に学ぶ 実践的なビジネスフレームワークを学ぶ SQLとPythonを組みあわせて実データを使った様々なワークを行う マーケティングの実行プラン策定 マーケティングとデータ分析の掛け合わせで集客マネタイズ |
データサイエンティストとしての自分の経験をふまえてエッセンスを詰め込んだのがこちらのスタビジアカデミー、略して「スタアカ」!!
当メディアが運営するスクールです。
24時間以内の質問対応と現役データサイエンティストによる複数回のメンタリングを実施します!
カリキュラム自体は、他のスクールと比較して圧倒的に良い自信があるのでぜひ受講してみてください!
他のスクールのカリキュラムはPythonでの機械学習実装だけに焦点が当たっているものが多く、実務に即した内容になっていないものが多いです。
そんな課題感に対して、実務で使うことの多いSQLや機械学習のビジネス導入プロセスの理解などもあわせて学べるボリューム満点のコースになっています!
Pythonが初めての人でも学べるようなカリキュラムしておりますので是非チェックしてみてください!
ウォルマートのデータを使って商品の予測分析をしたり、実務で使うことの多いGoogleプロダクトのBigQueryを使って投球分析をしたり、データサイエンティストに必要なビジネス・マーケティングの基礎を学んでマーケティングプランを作ってもらったり・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践してもらったりする盛りだくさんの内容になってます!
・BigQuery上でSQL、Google Colab上でPythonを使い野球の投球分析
・世界最大手小売企業のウォルマートの実データを用いた需要予測
・ビジネス・マーケティングの基礎を学んで実際の企業を題材にしたマーケティングプランの策定
・Webサイト構築してデータ基盤構築してWebマーケ×データ分析実践して稼ぐ
データサイエンスに関する記事はこちら!
データサイエンスを勉強できるスクールやサイトは、ぜひこちらを参考にしてみてください!