線形モデルの理論と実践:回帰、診断、正則化、応用ガイド

はじめに:線形モデルとは何か

線形モデルは統計学と機械学習双方で最も基本的かつ広く使われるモデルクラスです。ここで言う「線形」とは、目的変数が説明変数の線形結合で記述されることを指します。一般形は y = Xβ + ε で表され、y は観測された応答、X は説明変数行列、β は未知の係数、ε は誤差項です。線形モデルは解釈性が高く、推定や診断の理論が整備されているため、実務での第一選択やベースラインとして重宝されます。

代表的な線形モデルの種類

  • 単回帰・重回帰:連続応答を説明する最も基本的な形。最小二乗法(OLS)で推定される。

  • 一般化線形モデル(GLM):応答の分布(二項、ポアソンなど)とリンク関数(logit、logなど)を導入して扱える拡張。例:ロジスティック回帰、ポアソン回帰。

  • 線形判別分析(LDA):分類問題に用いるが、平均の線形分離を仮定する点で線形モデルと関連。

  • 正則化付き線形モデル:過学習抑制や多重共線性対策としてリッジ回帰(L2)、ラッソ(L1)、Elastic Netなど。

推定:最小二乗法とその性質

最小二乗推定(OLS)は目的変数と予測値の二乗誤差和を最小化する方法で、閉形式解 β̂ = (X'X)^{-1}X'y を持ちます。標準的な仮定(線形性、外生性=E[ε|X]=0、等分散性、独立性、正規性など)のもとで、OLSは不偏推定量であり、ガウス=マルコフ定理により「最良線形不偏推定量(BLUE)」になります。多くの実務では正規性は推定の一貫性に必須ではありませんが、t検定や信頼区間の厳密な有効性は正規性に依存します。

仮定の確認と診断

線形モデルの有効性は仮定が満たされているかに依存します。主な診断項目と対策は以下の通りです。

  • 残差の正規性:QQプロットやShapiro–Wilk検定で確認。大きな逸脱がある場合は、ロバスト標準誤差やブートストラップを検討。

  • 等分散性(ホモスケダスティシティ):Breusch–Pagan検定、White検定で評価。異分散が確認されればホワイト型のロバスト標準誤差や重み付き最小二乗(WLS)を用いる。

  • 自己相関:時系列データでは残差の自己相関をDurbin–Watson検定でチェック。AR誤差や時系列モデル(ARIMA)への拡張を検討。

  • 多重共線性:説明変数間の高い相関は推定係数の分散を増大させる。分散膨張因子(VIF)で評価し、高VIFの変数は削除、合成、主成分回帰(PCR)、リッジ回帰などで対処。

  • 外れ値と影響点:残差プロットやCookの距離で検出。単に除外するのではなく原因(測定エラー、異常データ群、モデルの欠落)を調べる。

推論とモデル評価指標

回帰係数の統計的有意性はt検定で評価し、変数集合全体の説明力はF検定で検定します。決定係数R²は説明変数が応答変動をどれだけ説明しているかを示しますが、変数数が増えると必ず増加するため、自由度を考慮した調整R²(Adjusted R²)を見るのが一般的です。予測性能を評価する際は、平均二乗誤差(MSE)、平均絶対誤差(MAE)、交差検証(k-fold CV)による検証が有用です。モデル比較にはAIC、BICなどの情報基準も使われ、これらはモデルの良さと複雑さ(パラメータ数)をバランスします。

正則化と変数選択

説明変数が多い場合や多重共線性が強い場合、正則化は有効です。リッジ回帰(L2ペナルティ)は係数を小さくすることで分散を抑え、ラッソ(L1)は係数の一部をゼロにして変数選択効果を持ちます。Elastic NetはL1とL2を組み合わせ、両者の利点を活かします。交差検証で正則化パラメータを選定するのが標準的です。また、ステップワイズ選択(前進・後退)や情報基準に基づく選択は便利だが過適応や選択バイアスに注意します。

カテゴリ変数と交互作用項の扱い

カテゴリ変数はダミー変数(one-hot)化して扱います。ダミートラップ(完全多重共線性)を避けるため参照カテゴリを1つ除外します。交互作用項(例:X1*X2)は変数間の効果が単純な加法でない場合に重要です。解釈はやや複雑になるため、主効果と交互作用を併せて解釈することが必要です。

変換と非線形性への対応

説明変数や応答の対数変換、Box–Cox変換、自然スプラインや多項式項の導入により非線形性をモデル化できます。多項式やスプラインは線形モデルの枠内で柔軟性を持たせる手法ですが、過剰に高次を使うと振動や過学習を招くため正則化や交差検証で制御します。

実務的な注意点とベストプラクティス

  • スケーリング:標準化(平均0、分散1)は特に正則化や距離ベース手法で重要。

  • 外挿の危険性:学習範囲外の説明変数での予測は不確実性が高い。

  • 欠損値の扱い:単純な除外はバイアスの原因になりうる。多重代入(multiple imputation)などの手法を検討。

  • モデルの再現性:処理手順、乱数シード、データ前処理はコードとともに保存。

  • 解釈と因果推論の違い:回帰係数の有意性が因果関係を意味するわけではない。因果推論には追加の識別戦略(操作変数、差分の差分、ランダム化など)が必要。

機械学習との関係

線形モデルは機械学習でも広く用いられます。ロジスティック回帰は二項分類の基礎で、線形回帰は回帰問題のベースラインです。性能や解釈性のトレードオフを考え、木系モデルやニューラルネットと比較検討します。特徴量エンジニアリングや正則化、クロスバリデーションは共通の重要プロセスです。

まとめ:いつ使い、どう扱うか

線形モデルは高い解釈性と計算効率を兼ね備え、初期探索、ベースライン構築、因果推論の一部に最適です。ただし仮定違反(非線形性、異分散、自己相関、測定誤差)や多重共線性、外れ値などの問題に注意し、適切な診断と対策(変換、正則化、ロバスト推定、モデル拡張)を行う必要があります。実務では交差検証と外部検証データで予測性能を検証し、ドメイン知識を活かして変数選択やモデル化を進めることが成功の鍵です。

参考文献