正則化｜スタビジ

正則化手法についてざっくりと説明していきます。

正則化とは、目的関数に対して最適化したいパラメータの関数を追加することでパラメータを安定的に推定する方法です。

この追加したパラメータの関数の部分を正則化項（あるいは、罰則項・罰金項）と呼びます。

イメージとしては次の式になります。
$$(目的関数)+(パラメータに関する関数)$$
例えば、回帰分析について見てみましょう。

サンプルサイズを$n$、パラメータ数を$p$、$n$次元の目的変数ベクトルを${\bf y}$、$n$×$p$次元の計画行列を${\bf X}$、$p$次元の回帰係数ベクトルを${\bf \beta}$、$n$次元の誤差ベクトルを${\bf \epsilon}$とすると、回帰分析のモデルは次の式のようになります。
$${\bf y}={\bf X}{\bf \beta}+{\bf \epsilon}$$
この式を最小二乗法で解くときの関数は次の式のようになります。
$$\|{\bf y}-{\bf X}{\bf \beta}\|_2^2$$
この式では、求めたいパラメータは回帰係数ベクトル${\bf \beta}$なので${\bf \beta}$の関数$\rho({\bf \beta})$を追加した関数を最適化することで正則化できます。つまり、次のような式を最適化することになります。
$$\|{\bf y}-{\bf X}{\bf \beta}\|_2^2+\rho({\bf \beta})$$
$\rho()$は何かしらの関数の形を表します。

例１：Ridge(リッジ)回帰
Ridge回帰とは正則化項$\rho({\bf \beta})$に$L_2$ノルムを用いる方法です。最適化する式は次のようになります。
$$\|{\bf y}-{\bf X}{\bf \beta}\|_2^2+\lambda\|{\bf \beta}\|_2^2$$

例２：Graphical Lasso（グラフィカル・ラッソ）
Graphical Lassoとは精度行列${\bf \Omega}$の最尤推定の関数に正則化項$\rho({\bf \Omega})$として$L_1$ノルムを追加して解く方法です。最適化する式は次のようになります。
$$tr({\bf \Omega}{\bf S})-log|{\bf \Omega}|+\lambda\|{\bf \Omega}\|_1$$

正則化手法を用いことで得られるものは多くあります。

その一つとして、$L_1$ノルムの正則化項を用いたスパース推定について他のページでもう少し詳しく説明していきます。

線形回帰とLasso・Ridgeの比較については以下の記事をご覧ください！