多変量解析

欠測データ

ウマたん
ウマたん
当サイト【スタビジ】の本記事では、欠測があるデータの解析方法について説明していきます。欠測データ解析は非常に重要ですが知っておくべきことが多いので、まずは全体の概要と方法について理解してもらえたら嬉しいです。

実データにつきものなのが、データの欠損。

そのようなデータを欠測データとか欠損データとか言ったりしますが、この記事では欠測データで統一します。

欠測データをそのまま分析してしまうと様々な不都合が生じます。

そこでこの記事では、そんな欠測データへの対応方法を徹底的にまとめていきます!

最後にオススメの本を紹介するので是非読んでみてください!

欠測データとは?

欠測(あるいは欠損)データとはデータの一部が何かしらの理由によって取得できなかったデータのことを言います。

例えば、「毎日の売り上げデータがあったとしてパソコンの故障である日のデータが消えてしまった!」なんてことになると欠測データになります。

データに欠測があると通常の回帰分析などをしようとしてもそのままでは解析出来ないので何かしらの対応をする必要があります。

表:欠測データ

欠測データの扱いには二つの重要なポイントあります。

・欠測メカニズム
・解析のための処理方法

解析したいデータの欠測メカニズムを把握して適切な処理をしないと結果に偏りが出るおそれがあります。

欠測メカニズム

欠測メカニズムとはLittleさんとRubinさんによって提唱されたなぜ欠測をするのかを考えたものです。

メカニズムの種類によって欠測は「無視可能」と「無視不可能」に分類されます。

無視可能とは「欠測データの解析結果ともし欠測していなかった場合の完全なデータの解析結果との間に違いがない」ことを言います。

このように重要である欠測メカニズムは三つに分類されます。

MCAR

一つ目は完全に無作為な欠測という意味でMissing Completely At Randomの略で「MCAR」と呼びます。

これはある値の欠測する確率がデータと全く関係がない、完全にランダムに欠測することを言います。

先のデータでいうと体重を測ってもらう人ごとにサイコロを振ってもらって1が出たら体重を計らないとすれば欠測はMCARになります。

この欠測は常に無視可能です。

図:MCARのイメージ

MAR

二つ目は条件付きで無作為な欠測というものでMissing At Randomの略で「MAR」と呼びます。

これは、ある値が欠測する確率が観測されたデータで条件づけるとランダムになることを言います。

先のデータでいうと、男性と比べて女性の方が体重を計りたくないと考えるので性別によって欠測確率が変わります。

しかし、女性だけに絞ると欠測はランダムと考えられるのでMARになります。

欠測がMARの場合は欠測が存在するサンプルを削除して分析をすると推定結果が偏ることがあるので適切に処理する必要があります。

MARの場合でも無視可能とすることが多いです。

実際のデータでは欠測はMARの場合が多いです。

図:MARのイメージ

MNAR

三つ目は無作為ではない欠測というものでMissing Not At Randomの略で「MNAR」と呼びます。

これは、ある値が欠測する確率が欠測データ自体に依存していることを表します。

先のデータでいうと、体重が重い人ほど体重を計りたくないと考えると体重によって欠測確率が変わります。

データの中に体重を予測できる情報がなければ欠測は無視不可能になります。

図:MNARのイメージ

処理方法

処理方法はざっくり三つに分けられます。

欠測があるサンプルを削除する方法

最も単純なのは各サンプルで欠測が発生しているのであればそのサンプルを削除してしまう方法があります。

削除して完全なデータにしてから回帰分析などの解析を行います。

これはリストワイズ法と呼ばれます。

リストワイズ法は欠測がMCARであれば推定結果は不偏ですがMARの場合には偏りが出ることがあります。

また、サンプルを削除するので解析するときに推定効率が下がるなどの問題も起こりかねません。

図:リストワイズ法での処理と解析

欠測箇所を何かの値で埋めてやる方法

二つ目は欠測箇所を何かの値で埋めてやる方法で代入法あるいは補完法と呼ばれます。

欠測部分に何かの値を代入することで完全なデータにしてから回帰分析などの解析を行います。

欠測がMARの場合でも代入法だとリストワイズ法のような問題が起きません。

代入法には単一代入法と多重代入法に分けられます。

単一代入法

これは一つの欠測部分に一つの値を代入する方法です。

手法としては

・平均値代入法
・比率代入法
・回帰代入法
・確率的回帰代入法
・ホットデック法

などがあります。

図:単一代入法での処理と解析

多重代入法

これは一つの欠測部分に複数の値を代入する方法です。

単一代入法では代入に用いるモデルが一つだけであり代入のためのモデルのばらつきを評価できていません。

そこで考えられたのが多重代入法です。

欠測データの事後予測分布から無作為に抽出されたM個のデータセットそれぞれで代入を行い、その後それぞれのデータセットで回帰分析などの目的としている解析を行います。

そして最後にM個の解析結果を統合することで最終的な解析結果とします。

図:多重代入法での処理と解析

欠測があってもそのまま解析する方法

三つ目は欠測があっても、統計モデルなどを仮定することで尤度に基づく解析方法があります。

手法としては

完全情報最尤推定法

などがあります。

欠測データのまとめとおすすめ参考書

欠測データについて見てきました!

最後に欠測データのおすすめ書籍を紹介しておきましょう!

なかなか欠測データについてまとめられた書籍は少ないんですが、以下の二冊は非常に分かりやすいので是非読んでみてください!

■欠測データの統計解析 (統計解析スタンダード)

欠測データの扱いを全体的に分かりやすくまとめています。

■欠測データ処理: Rによる単一代入法と多重代入法 (統計学One Point)

欠測データの扱いの中でも代入法、特に多重代入法のやり方が詳しく分かりやすく書かれています。

Rのコードも載っているので実際に解析してみると理解が早く進みます。

以下の記事で統計学全般のオススメ書籍を紹介しているので合わせてご覧ください!

書籍
厳選32冊!統計学を勉強する上でおすすめな本当サイト【スタビジ】の本記事では、統計学のおすすめ書籍を分野別に徹底的にまとめていきます!統計学は難しいイメージがあるかもしれませんが学び方を間違えなければ大丈夫。悪書に当たると一気に挫折してしまうので気を付けてください。ここで紹介する書籍はどれも良本なので安心してくださいね!...
Pythonを初学者が最短で習得する勉強法

Pythonを使うと様々なことができます。しかしどんなことをやりたいかという明確な目的がないと勉強は捗りません。

Pythonを習得するためのロードマップをまとめましたのでぜひチェックしてみてくださいね!