Box-cox変換を用いて正規分布に従わないデータを解析をしてみよう！

ウマたん

本記事では、正規分布に従っていないデータの変換に非常に便利なBox-cox変換について見ていきます。パラメトリック手法による解析を行う上ではBox-coxなどデータ構造を変化させるのは有用なのでぜひ学んでおきましょう！

こんにちは！

あるデータに対して線形回帰分析（一般的に用いられる重回帰分析）を行ってみたけど上手くいかない・・・

そんなことよくありますよね！

ロボたん

あるある！！

ウマたん

実はそれってデータの構造に問題があることが多いんだ！

なんでも線形回帰分析を適応していいわけではないんです。

この記事では、実際にデータによってはどのような問題が発生してしまうのか、どのように解決していけばよいのか見ていきましょう！

以下のYoutube動画でも詳しく解説しています！

どんな問題があるの？
Box-Cox変換で解決！
Box-Cox変換を用いて実データ解析
Box-cox変換　まとめ

どんな問題があるの？

一般的に良く用いられる線形回帰分析というのは、データが正規分布に従うという仮定を置いているんですね！

※厳密には残差が正規分布に従う

正規分布というのはこんな分布！

統計学で最も良く出てくる分布ですね！

データの分布がこのようになっていないと上手く線形回帰分析が当てはまらないんです！

でも実際世の中のデータはこんなきれいな正規分布に従っていないものばかり！

Box-Cox変換で解決！

それでは、どうすればよいのでしょうか？

このようにデータの従う分布が決められているような線形回帰分析などの手法をパラメトリックモデルと呼びます。

これに対して、最近流行りの機械学習手法はノンパラメトリックモデルと呼ばれ、背後に分布を想定していないものが多いです。

だからランダムフォレストやサポートベクター回帰などのノンパラメトリックモデル手法を使って解析することは一つの手でしょう！

ただ、やはりデータの構造が分かるならそれに沿った解析を行いたいし、パラメトリックモデルの方が解析結果の解釈が容易です。

そこで大きく分けて二つの方法が存在します。

一つは、正規分布でない分布を背後に仮定した回帰手法を用いること。

ポアソン回帰などがその例ですね。

あとはそれらの回帰分析を混合した一般化線形混合モデルなども存在します。

これらに関しては、以下の記事で詳しく取り上げておりますので良かったら見てみてください！

https://toukei-lab.com/%E7%B5%B1%E8%A8%88%E3%83%A2%E3%83%87%E3%83%AB

そして二つ目は、データの構造を無理やり正規分布に変換しちゃうというもの！

Box-Cox変換と呼びます。

定義は以下の通りです。

\begin{eqnarray}
{y}^\lambda
=
\begin{cases}
\frac{ {y}^\lambda-1 }{ \lambda } & ( \lambda \neq 0 ) \\
log{(y_i)} & ( \lambda = 0 )
\end{cases}
\end{eqnarray}

でもこのBox-cox変換はなんでもかんでも変換しちゃえば良いというものではなくて説明変数がある程度正規分布に従わないと目的変数を正規変換してもあまり意味ないんです。

また、Box-cox変換の弱点は定義をみれば分かると思いますが、負の値は変換できないということ。

これを改善してくれたのがYeo-Johnson変換です。

定義は以下の通り。

\begin{eqnarray}
{y}^\lambda
=
\begin{cases}
\frac{{y+1}^\lambda-1}{\lambda} & ( \lambda \neq 0 , y\geq0) \\
log{(y+1)} & ( \lambda = 0 , y\geq0)\\
\frac{-[(-y+1)^{2-\lambda}-1]}{(2-\lambda)}& ( \lambda \neq 2 , y\lt0)\\
-log{(-y+1)} & ( \lambda = 2 , y\lt0)\\
\end{cases}
\end{eqnarray}

複雑そうに見えますが、そんなこともないですよー！

でもあんまり使わないかなーという印象です。

ちなみにBox-cox変換は、Rで簡単に実装できます。最適な\(\lambda\)もRで一発で求めることができちゃうんです！

具体的には、carパッケージのpowerTransformという関数を用いて、\(\lambda\)を推定し、bcPower関数で変換を行います。

Yeo-Johnson変換もパッケージありますが、ここでは取り上げません。

それでは、実際に実データを用いて解析を行ってみましょう！

ウマたん

Let’s 実装！！