ベイズラッソ入門:L1正則化をベイズ推定に組み込み、不確実性評価と実務での活用ガイド

ベイズラッソとは — 概要と位置づけ

ベイズラッソ(Bayesian Lasso)は、1996年に提案された古典的なLasso(Least Absolute Shrinkage and Selection Operator、Tibshirani, 1996)の考え方をベイズ推定の枠組みに組み込んだ手法です。L1ノルムに基づく正則化で係数を縮小(shrinkage)し、変数選択や過学習防止に有効である点を活かしつつ、ベイズモデルとして事後分布を推定することで不確実性の評価(Credible intervalなど)が可能になります。代表的な定式化はPark & Casella (2008)の「The Bayesian Lasso」で示されています。

基本的なモデル定式化

最も単純な線形回帰の文脈で考えると、観測データ y(n×1)と説明変数行列 X(n×p)に対して次のような階層モデルを置きます。

  • 観測モデル: y | β, σ^2 ~ N(Xβ, σ^2 I)
  • 係数の事前: β_j | τ_j^2, σ^2 ~ N(0, σ^2 τ_j^2) (各係数ごとにスケールパラメータ τ_j を導入)
  • τ_j^2 の事前(混合分布): τ_j^2 ~ Exponential(rate = λ^2 / 2)
  • ハイパーパラメータ λ(正則化の強さ)は固定でも良いし、階層ベイズ的にさらに事前(例: Gamma)を与えて推定することも可能

この階層化により、β_j をラプラス分布(double-exponential)で事前化したのと同じ周辺分布が得られます。すなわち「ラプラス事前=正規分布のスケール混合(指数分布で混合)」という性質を利用した表現です。これにより、サンプリング(Gibbsサンプリング等)による後方推定が容易になります。

ラプラス分布とスケール混合表現

ラプラス(double-exponential)分布は密度が f(β) ∝ exp(−λ |β|) で与えられ、L1正則化(Lasso)と対応します。このラプラス分布は「正規分布のスケール混合(scale mixture of normals)」として表現でき、混合分布の潜在変数(ここでは τ_j^2)を導入すると解析的に扱いやすくなります。

具体的には、β_j を条件付きで正規分布にし、τ_j^2 に指数分布を与えると、τ_j^2 を周辺化したときにβ_j の周辺事前はラプラス分布になります(Park & Casella, 2008)。この表現がベイズラッソの計算的な利点の源泉です。

計算(MCMC)とアルゴリズム

ベイズラッソでは上記の階層モデルに対して以下のような方法で事後分布を近似します。

  • Gibbsサンプリング: β(多次元正規分布)、σ^2(逆ガンマ等)、τ_j(逆ガウス等の既知分布)といった条件事後分布を順次サンプリングする。Park & Casellaはこの手順を示し、実装可能であることを示しました。
  • ハイパーパラメータ λ の推定: 固定値をクロスバリデーションで決める方法の他、λ^2 に対してGamma等の事前を置き、その後方分布をサンプリングする階層ベイズ的扱いも一般的です。
  • MAP推定: 事後モード(MAP)を求めると古典的なLasso推定量と一致する(あるパラメータ化の下で)ため、最適化ベースの手法(座標降下法など)で近似する運用も考えられます。ただし、MAPは分布の情報を捨てるためベイズの利点が薄れます。

計算上のポイントは、ラプラス事前のスケール混合表現により条件事後が既知の分布になるため効率的なサンプリングが可能になることです。具体的な条件分布の形はパラメータ化に依存しますが、正規分布と逆ガウス(または一般化逆ガウス)等が現れます。

古典的Lassoとの違い・解釈

  • 目的の違い: 古典的Lassoは点推定(ペナルティ付き最尤推定)であるのに対し、ベイズラッソはパラメータの事後分布を求めて不確実性を評価できる。
  • スパース性: 古典的Lassoは多くの係数を厳密にゼロにする性質がある一方、ベイズラッソは連続的な事前(ラプラス)を用いるため事後分布は基本的に連続で、確率的にゼロになるというよりは「強くゼロ近傍に収縮」します。MAP推定では係数がゼロになることがありますが、事後平均は通常ゼロに厳密にはならない点に注意が必要です。
  • モデル選択: 真の変数選択を行いたい場合、スパイク&スラブ事前やハードな閾値処理(事後平均や事後確率に基づく閾値化)などを組み合わせることが多いです。

利点と欠点(実務的観点)

  • 利点
    • 事後分布により推定の不確実性を定量化できる(信頼区間より解釈しやすいCredible intervalなど)。
    • 階層ベイズにより正則化パラメータ λ を自動推定できる(ハイパーパラメータの不確実性を取り込める)。
    • ラプラス事前のスケール混合によりGibbsサンプリングで比較的効率よく推定できる。
  • 欠点
    • サンプリングベースのため計算コストが高く、大規模データ(高次元・大サンプル)では負担が大きい。
    • 連続事前のため真のスパース性(係数を厳密にゼロにする)を得にくい。完全な変数選択を要する場合はスパイク&スラブやハード閾値化が必要。
    • 結果が事前の選び方(特にλの設定)に依存するため、事前設定やハイパーパラメータ事前の妥当性検討が重要。

派生・拡張

ベイズラッソの枠組みは多くの派生研究を生みました。具体例を挙げると:

  • ベイズ・アダプティブ・ラッソ(係数ごとに異なる重みを導入して適応的に正則化)
  • グループラッソ(説明変数がグループを成す場合のベイズ版)
  • 融合ラッソ(隣接する係数間の差をペナルティするFused Lassoのベイズ版)
  • ホースシュー(Horseshoe)やスパイク&スラブなど、より強いスパース性や針路的(heavy-tailed)事前を用いる代替手法

用途によってはこれらのほうが性能面や解釈面で優れることがあります。特に高次元で「真のスパース性」を強く仮定する場合はホースシューやスパイク&スラブが検討されます(Carvalho et al., 2010 等)。

実務での使い方・注意点

  • データ前処理: Lassoと同様に説明変数は標準化(平均0、分散1)してから用いるのが一般的。そうしないと係数の縮小効果が変数スケールに依存する。
  • ハイパーパラメータの扱い: λ を固定するならクロスバリデーションで決める。階層ベイズ的に推定するならλに緩やかな事前を与える(Gamma等)と良い。
  • 収束診断: MCMCベースなので収束診断(トレースプロット、Rhat等)を行い、十分なサンプル数とバーンインを確保する。
  • 変数選択指標: 事後平均の閾値化、事後確率(係数がある閾値を超える確率)やスパイク&スラブ併用など、選択基準を明確にする。

まとめ

ベイズラッソはL1正則化の利点をベイズ推定に取り込み、不確実性評価や階層ベイズ的ハイパーパラメータ推定を可能にする有力な手法です。計算コストや真のスパース性の扱い方など実務上の留意点はあるものの、モデリングの柔軟性や解釈性の点で魅力があります。用途やデータ特性に応じて、ホースシューやスパイク&スラブなどの代替法と比較検討することが重要です。

参考文献