2乗正則化(L2正則化・リッジ回帰)の理論と実践ガイド:数式・実装・ハイパーパラメータ選定まで解説

はじめに:なぜ正則化が必要か

機械学習や統計モデリングでは、訓練データに対して過度に適合してしまういわゆる過学習(overfitting)が大きな問題です。特に説明変数が多い、あるいは多重共線性がある場合、最小二乗法などの推定量は分散が大きく不安定になります。2乗正則化(L2正則化、リッジ回帰、Tikhonov正則化)は、パラメータの大きさを抑えることでモデルの分散を下げ、汎化性能を改善するための基本的かつ広く用いられる手法です。

基本定義と目的関数

線形回帰を例にとると、観測値 y と説明行列 X に対してパラメータベクトル w を求める標準的な最小二乗は次の式を最小化します:

J(w) = ||y - Xw||_2^2.

これに対して2乗正則化を導入すると、目的関数は次のようになります:

J_ridge(w) = ||y - Xw||_2^2 + \lambda ||w||_2^2

ここで λ (ラムダ) は正則化パラメータ(>=0)で、パラメータの二乗ノルム ||w||_2^2 を罰則として加えます。λ が 0 に近ければ通常の最小二乗に近づき、λ が大きくなると重みはより小さく抑えられます。

解析解とSVDによる解釈

解析的には、リッジ回帰の解は閉形式で得られます(バイアス項を正則化しない場合):

w_hat = (X^T X + \lambda I)^{-1} X^T y.

特異値分解(SVD)X = U S V^T を使うと、各特異値 s_i に対し係数が s_i/(s_i^2 + λ) で縮小されることが分かります。つまり、情報量の小さい(s_i が小さい)方向ほど効果的に縮小され、数値的安定性(条件数の改善)や分散削減に寄与します。

ベイズ的解釈

リッジ回帰はベイズ統計の観点からはパラメータ w に対する平均 0、分散 σ_w^2 のガウス事前分布を仮定した最尤推定(MAP 推定)と同等です。事前分布が N(0, τ^2 I) のとき、正則化係数 λ は観測ノイズや事前分散に関連し、λ ∝ σ_noise^2 / τ^2 のように解釈できます。これにより「大きな係数が起きにくい」という先験的な情報を導入します。

重み減衰(Weight Decay)としての等価性

ニューラルネットワークの文脈では、2乗正則化は weight decay(重み減衰)と呼ばれ、勾配降下法の更新式にペナルティ項を追加することで実装されます。学習率 η と正則化係数 λ を用いた単純な更新は次のようになります:

w <- w - η (∇_w Loss + 2 λ w)

これにより各ステップで重みが指数的に縮小されるため「減衰」と呼ばれます。

数値計算上の実装と効率化

  • 閉形式解は (X^T X + λ I) の逆行列計算を含みますが、次の手法で効率化できます:

    • Cholesky 分解:正定値行列に対して安定で効率的。

    • SVD またはエコンディショニングの改善:低ランク近似やトランケーションを併用可能。

    • 高次元(特徴数が非常に大きい)場合は共役勾配法(Conjugate Gradient)などの反復法で (X^T X + λ I)^{-1} の作用を評価するのがメモリ効率的。

    • カーネルリッジ回帰:デュアル表現を使えば特徴数が効く場面で有効。α = (K + λ I)^{-1} y。

  • 実装上の注意:切片(バイアス)は通常正則化の対象から除外します。また、特徴量は標準化(平均0、分散1)してから正則化を行わないと、スケールの差による不適切な縮小が起きます。

ハイパーパラメータ λ の選び方

λ の選択はモデルの性能に直接影響します。代表的な方法は以下の通りです:

  • 交差検証(k-fold CV):最も実用的で一般的。

  • 一般化クロスバリデーション(GCV):計算効率を意識した近似手法。

  • L字曲線(L-curve):データ適合度と正則化項のトレードオフを可視化して選ぶ方法。

  • ベイズ的モデル選択:事前分布やマージナル尤度に基づく選択。

リッジの効果と限界

利点:

  • 多重共線性の影響を緩和し、推定の分散を下げる。

  • 数値的に安定(行列の条件数改善)。

  • 実装が簡単で、回帰系だけでなくニューラルネットなど広範に適用可能。

限界:

  • L2 正則化は係数をゼロにしないため、変数選択(スパース解)が必要な場合は L1(ラッソ)や Elastic Net を検討する必要がある。

  • 特徴のスケールに敏感なので事前の標準化が必須。

  • 過度に大きな λ はバイアスを増大させるため、クロスバリデーションで適切に調整する必要がある。

発展と関連手法

  • Tikhonov 正則化:一般化された形式で、||L w||_2^2 のように任意の行列 L を用いて構造的なペナルティを与えられます(例:差分行列で滑らかさを制御)。

  • Kernel Ridge Regression:カーネル法と組み合わせて非線形関数空間でのリッジ化。

  • Elastic Net:L1 と L2 の両方を組み合わせ、スパース性と安定性を両立。

  • Gaussian Process:カーネルと正則化(事前分布)の密接な関係により、リッジ/カーネルリッジはガウス過程の特別の場合と見なせます。

実務上のチェックリスト

  • データの標準化(スケーリング)を行っているか。

  • 切片を正則化から除外しているか(ほとんどの場合除外)。

  • λ の探索範囲は対数スケール(例:10^(-6)〜10^3)で行っているか。

  • 交差検証で安定な性能を確認しているか(データ分割のランダム性にも注意)。

  • 数値安定化のために Cholesky やライブラリ(scikit-learn 等)を用いているか。

まとめ

2乗正則化(L2)は、過学習抑制・多重共線性対策・数値安定化という点で非常に有用な技術です。閉形式解やSVDによる明確な解釈、ベイズ的な裏付け、ニューラルネットにおける weight decay との等価性など理論的にも実務的にも扱いやすい特長があります。一方でスケール依存性やスパース化を行わない点に注意し、標準化と適切なハイパーパラメータ選定を必ず行うことが重要です。

参考文献