重回帰分析の完全ガイド:仮定・係数の解釈・診断と実務で使える対処法

重回帰分析とは

重回帰分析(じゅうかいきかいせき、multiple regression)は、ひとつの目的変数(従属変数)を複数の説明変数(独立変数)で説明・予測する統計手法です。ビジネス、経済、医療、社会科学、IT(機械学習の前段階として)など、さまざまな領域で因果推論や予測に広く使われます。最も基本的な形は線形重回帰で、モデルは次のように表されます。

y = β0 + β1 x1 + β2 x2 + … + βp xp + ε

ここで y は目的変数、x1…xp は説明変数、β0 は切片、β1…βp は回帰係数、ε は誤差項(残差)です。

なぜ使うのか(利用目的)

  • 説明:どの説明変数が目的変数に影響を与えるかを定量的に評価する。
  • 予測:新しい観測に対して目的変数を推定する。
  • 因果探索の一端:交絡を調整して部分効果を推定する(ただし因果推論には追加の仮定や設計が必要)。

基本的な前提(仮定)

線形重回帰分析が妥当な推定と検定を提供するためには、いくつかの標準的な仮定があります。代表的なものは以下の通りです。

  • 線形性:説明変数と目的変数の関係が線形(または線形化できる)であること。
  • 外生性(誤差の期待値が0):説明変数が誤差項と無相関であること(E[ε|X]=0)。
  • 等分散性(ホモスケダスティシティ):誤差の分散がすべての観測で一定であること。
  • 独立性:観測間の誤差が互いに独立であること(時系列では自己相関に注意)。
  • 非完全共線性:説明変数間で完全な線形依存がないこと(近接共線性は推定の不安定化を招く)。
  • (推定量の正規性、検定のための便宜的仮定):誤差が正規分布に従うと仮定すると小標本でも係数の検定や信頼区間の解釈が容易。大標本では中心極限定理で緩和可能。

推定方法(最小二乗法)とその性質

最も一般的な推定法は最小二乗法(OLS: Ordinary Least Squares)です。OLSは残差の二乗和を最小にするβを解きます。正規方程式で解け、数学的には (X'X)^{-1} X'y と表されます(X は説明変数行列)。

ガウス=マルコフの定理により、上の標準仮定が成り立つならばOLS推定量は「最良の線形不偏推定量(BLUE)」です。すなわち線形で不偏かつ分散が最小です。

係数の解釈と標準化

各係数 βj は、他の説明変数を一定にしたときの xj の単位変化に対する y の平均変化を表します。単位やスケールの違う変数を比べたい場合は標準化係数(各変数を平均0・分散1にスケーリングしてから回帰)を使うと相対的重要度を比較できます。

モデル評価指標

  • 決定係数 R²:モデルが目的変数の分散をどれだけ説明しているか(0~1)。ただし説明変数を増やすと単純に増加するため注意。
  • 自由度調整済み R²(Adjusted R²):変数数にペナルティを入れたR²で、モデル選択に役立つ。
  • RMSE(Root Mean Squared Error)、MAE:予測誤差の尺度。
  • AIC、BIC:情報量基準。モデルの複雑さと適合度のトレードオフでモデル選択に使う。

推定結果の検定と信頼区間

各係数に対してt検定を行い「その係数がゼロか否か」を調べます。係数の標準誤差からt値、p値を計算し、信頼区間(通常95%)を提示します。多重比較やモデル選択の影響で単純なp値の解釈には注意が必要です。

診断と問題点(よくある課題)

  • 多重共線性:説明変数間の高い相関は係数の分散を大きくし、不安定化させる。VIF(Variance Inflation Factor)が目安(一般にVIF>10で問題視されることが多い)。
  • 異分散性:誤差の分散が一定でない場合、OLSの標準誤差が誤って推定される。Breusch–Pagan検定やWhite検定、ロバスト標準誤差(Huber-White)で対処。
  • 自己相関:時系列データでは残差が自己相関を持つと標準誤差の推定が歪む。Durbin–Watson検定やAR項の導入、一般化最小二乗(GLS)で対処。
  • 外れ値・影響点:外れ値は推定を大きく歪めることがある。クックの距離や影響度指標で特定し、ロバスト回帰などで対応。
  • モデルの誤指定(非線形や欠落変数バイアス):関係が非線形なのに線形モデルを当てはめるとバイアスが出る。変数変換や交互作用項の追加を検討。

対処法と拡張

上の問題への代表的対応策をまとめます。

  • 共線性:変数削減(主成分分析、変数選択)、正則化(Ridge, Lasso)を利用。
  • 異分散性:ロバスト標準誤差、重み付き最小二乗(WLS)。
  • 自己相関:ラグ変数の追加、GLSや時系列モデルの採用。
  • 外れ値:ロバスト回帰(M推定など)、外れ値除外の慎重な検討。
  • 非線形性:多項式項(x^2 など)、対数変換、スプライン回帰など。

変数選択の手法

説明変数が多数ある場合、モデルの過学習や解釈困難さを避けるため選択が必要です。代表的方法:

  • 逐次選択(前進選択、後退除去、ステップワイズ)
  • 情報量基準(AIC、BIC)によるモデル比較
  • 交差検証による予測誤差評価(k分割CV)
  • 正則化(Ridgeは係数のL2ペナルティ、LassoはL1で変数選択効果あり、Elastic Netは両者の組合せ)

カテゴリ変数・交互作用・標準化

カテゴリ変数はダミー変数(0/1)としてモデルに組み込みます。ダミーの基準水準(参照カテゴリー)を意識して解釈します。変数間の「効果が条件によって変わる」場合は交互作用項(x1*x2)を導入します。また、係数を直接比較するため、あるいは正則化での収束を安定させるために変数の標準化(平均0、分散1)は有効です。

実務上の注意点(IT領域での利用)

  • データの前処理:欠損値処理、外れ値の確認、カテゴリの適切なエンコーディング。
  • スケーリング:特に正則化手法を使う場合は標準化が必須。
  • ログやBox-Cox変換:目的変数の右裾に偏りがあるときの正規化手段。
  • 解釈の妥当性:相関と因果は異なる。操作可能性を示すには実験デザインや自然実験、インスツルメンタル変数などが必要。
  • モデルの再現性:学習データ・テストデータの分割、ハイパーパラメータ最適化のログ化、バージョン管理。

実例イメージ(短い説明)

例えば、Webサービスの月間アクティブユーザー数(MAU)を広告費、コンテンツ更新回数、平均ページ読み込み速度で説明するモデルを考えます。ここで広告費の係数が正なら、他を一定にして広告費を1単位増やすとMAUがβ_ad増加すると解釈します。ただし、読み込み速度と広告費が相関している場合(共線性)、係数の不確かさが増すため解釈に注意が必要です。

代替・拡張モデル

線形重回帰が合わない場合、以下のような他手法を検討します。

  • 一般化線形モデル(GLM):目的変数が二値やカウントのとき(ロジスティック回帰、ポアソン回帰)
  • 決定木・ランダムフォレスト・ブースティング:非線形・非パラメトリックで相互作用自動発見に強い
  • 混合効果モデル(マルチレベルモデル):階層構造(ユーザー内・グループ内)を扱う

まとめ(ポイント)

  • 重回帰は複数説明変数による説明・予測に有用で、解釈がしやすい。
  • OLSは標準的だが、仮定(線形性・等分散性・独立性・非共線性など)を満たすか診断することが重要。
  • 問題があればロバスト法、GLS、正則化、非線形モデルなどを検討する。
  • IT現場ではデータ前処理・スケーリング・交差検証・再現性確保が実務的に重要。

参考文献