回帰方程式の基本と実務活用:線形回帰の定義・推定・評価・診断

回帰方程式とは —— 基本的な定義と直感

回帰方程式(regression equation)は、ある変数(目的変数、従属変数)を、他の変数(説明変数、独立変数)の関数として記述する統計モデルの一種です。ITやデータサイエンスの文脈では、観測データから「説明変数が与えられたときに目的変数がどのように期待されるか」を数式で表現し、予測や因果推論に用います。最も基本的な形は単回帰(1つの説明変数)や重回帰(複数の説明変数)で、線形回帰方程式は次のように表されます。

y = β0 + β1 x1 + β2 x2 + ... + βp xp + ε

ここで y は目的変数、β0 は切片、β1…βp は各説明変数の係数、ε は誤差項(観測できないランダムな変動)です。

数学的定式化(線形回帰の例)

サンプルを n 個集め、説明変数を行列 X(n×(p+1)、最初の列は1で切片に対応)、目的変数をベクトル y(n×1)とすると、線形回帰モデルは

y = X β + ε

と書けます。最小二乗法(Ordinary Least Squares, OLS)による推定では、残差平方和を最小化する β̂ を求めます。その解は閉形式で表されます(X'X が可逆である場合):

β̂ = (X'X)^{-1} X' y

推定と統計的性質

  • 最小二乗推定量(OLS)は、誤差項が平均ゼロで分散が一定(等分散)かつ説明変数と誤差が相関しないなどの条件下で不偏であり、Gauss–Markovの仮定が成り立つとき「最良線形不偏推定量(BLUE)」になります。
  • 誤差項が正規分布に従うという追加仮定を置くと、係数の推定量の分布が正規分布になり、信頼区間や t 検定、F 検定による推測が可能になります。正規性は点推定の妥当性には必須ではありませんが、有限標本での推論には重要です。
  • OLS は最大尤度推定(MLE)と一致する場合があります。具体的には、誤差が独立同分布の正規分布に従うと仮定すれば、OLS は MLE と同値です。

モデルの評価指標と診断

回帰モデルの良さを測るために複数の指標と診断手法が用いられます。

  • 決定係数 R²:目的変数の分散に対してモデルが説明する割合。ただし変数を増やすと必ず増加するため、説明変数の数を考慮する調整済み R²(Adjusted R²)も用います。
  • 残差の分布とプロット:残差のヒストグラムやQQプロットで正規性を確認し、残差 vs 予測値プロットで線形性や等分散性の違反を探します。
  • 異方分散(heteroscedasticity)検定:Breusch–Pagan 検定など。異方分散があると標準誤差の推定が歪み、推論が誤る可能性があります。ロバスト標準誤差や加重最小二乗(WLS)で対処します。
  • 自己相関:時系列データでは誤差の自己相関が問題になります。Durbin–Watson 検定や残差の自己相関関数を確認します。
  • 多重共線性:説明変数間で強い相関があると係数の分散が大きくなり不安定に。分散膨張因子(VIF)で評価し、PCAや変数選択、正則化で対処します。
  • 予測誤差指標:RMSE(二乗平均平方根誤差)、MAE(平均絶対誤差)など。交差検証(k-fold CV)で汎化性能を評価します。

拡張:非線形・一般化線形モデル・正則化

「回帰方程式」は線形モデルに限りません。非線形関数、ポリノミアル回帰、基底関数を用いる回帰、あるいは一般化線形モデル(GLM)による回帰も含まれます。代表例:

  • 多項式回帰:y = β0 + β1 x + β2 x^2 + ...により非線形関係を表現。
  • ロジスティック回帰:目的変数が二値の場合、logit(p) = Xβ(p は成功確率)という回帰方程式で確率をモデル化。分類問題に使われますが“回帰”という語を含む点に注意。
  • 正則化(Ridge, Lasso, Elastic Net):高次元データや多重共線性に対処するため、係数にペナルティを課して過学習を抑えます。Ridge は L2 ペナルティ(閉形式解あり)、Lasso は L1 ペナルティ(スパース性を生む)です。
  • スプラインやカーネル回帰、決定木やランダムフォレストなどの非線形回帰手法も実務で広く使われます。

係数の解釈と因果推論の注意点

回帰係数 βj は「他の説明変数を固定したときに xj を1単位変化させた場合の y の期待値の変化量」を表します(線形モデルの場合)。ただし、以下の点に注意が必要です。

  • 相関と因果は異なる:回帰係数が有意でも、交絡(confounding)や逆因果、バイアスがあれば因果関係を示すとは限りません。因果推論にはランダム化実験や計量経済学的手法(操作変数、差の差分法など)が必要です。
  • 変数のスケール:係数は単位依存なので、標準化(zスコア)して寄与度を比較することがあります。
  • カテゴリ変数:ダミー変数(one-hot encoding)で取り扱う。基準カテゴリの解釈に注意。

実務上の注意点とワークフローのコツ

  • データ前処理:外れ値の確認、欠損値処理、変数のスケーリング(特に正則化を使う場合)、カテゴリ変数のエンコーディングが重要。
  • 特徴量エンジニアリング:対数変換、相互作用項(interaction terms)、多項式項などでモデルの表現力を高める。
  • モデル選択:AIC/BIC といった情報量規準、交差検証による汎化誤差評価、あるいはステップワイズ選択や正則化で重要変数を選ぶ。
  • 評価とデプロイ:学習データと検証データ(および可能なら独立のテストデータ)で性能を確認。モデルはリトレーニングや監視が必要。

IT分野での具体的な応用例

  • 予測メンテナンス:センサーデータから機器の劣化や故障確率を予測するための回帰モデル。
  • A/Bテストの効果推定:テスト群と対照群の差を説明変数として回帰で制御変数を入れつつ推定。
  • 需給予測・トラフィック予測:ウェブトラフィックやアクセス数、売上予測など。
  • 推薦システムの一部:ユーザー行動を説明する回帰モデルや、協調フィルタリングの行列分解における近似も回帰的視点で扱える。
  • 品質管理や性能分析:ログデータからの応答時間予測や障害原因の解析。

よくある誤解と落とし穴

  • 高い R² が「良いモデル」を意味しない:過学習や外れ値により高く見えることがある。予測性能の検証が必要。
  • 係数の有意性=実務的意義ではない:統計的に有意でも効果量が小さければ意味は限定的。
  • モデルの仮定違反を無視しない:等分散性や独立性などが破られると推論が誤る。

実装上のポイント(ソフトウェアと数値安定性)

  • 主要ツール:Python(scikit-learn, statsmodels)、R(lm(), glm(), glmnet)、Julia(GLM.jl)などが一般的。
  • 数値安定性:X'X の条件数が大きいと逆行列計算が不安定になるため、特異値分解(SVD)ベースのソルバーや正則化を検討する。
  • スケーリング:正則化モデルや勾配法では説明変数のスケーリングが重要。

まとめ

回帰方程式はデータから関係性を記述し予測するための基本的かつ強力な道具です。線形回帰は解釈性が高く計算も効率的で、GLM や正則化、非線形手法と組み合わせることで多様な課題に適用できます。一方で仮定の検証、診断、過学習対策、因果推論の限界などに注意して用いることが重要です。IT現場では予測、解析、意思決定支援などの場面で広く使われています。

参考文献