回帰残差の完全ガイド:診断と対処法、実務で使えるテクニック

概要

回帰残差は回帰分析における中心的な概念であり、モデルの適合性や前提条件の検証に直結する重要な指標です。本稿では回帰残差の定義からその数学的性質、診断手法、問題発見時の対処法、実務上の注意点までを幅広く深掘りします。線形回帰だけでなく、一般化線形モデルやロバスト推定への示唆も含め、データサイエンスや機械学習で活用できる知識を整理します。

回帰残差の定義と数学的性質

回帰残差とは観測値とモデルが予測した値の差です。単純な線形回帰を例に取ると、観測値を y_i、説明変数ベクトルを x_i、推定パラメータを ß̂ とすると残差 e_i は次のように定義されます。

e_i = y_i - ŷ_i = y_i - x_i'ß̂

最小二乗法では ß̂ は残差の二乗和 RSS = Σ e_i^2 を最小化する解であり、その結果として残差ベクトル e は設計行列 X の列空間に直交する性質を持ちます。すなわち X'e = 0 が成り立ちます。これにより推定量が不偏であることや、残差の合計がゼロであること(切片を含むモデルの場合)などの性質が導かれます。

残差の確率的性質と前提

古典的線形回帰モデルの前提は主に以下です。

  • 線形性: E[y|X] = Xß
  • 独立性: 誤差は互いに独立
  • 同分散性(等分散性): Var(ε_i) = σ^2
  • 正規性(推定の分布特性に必要): ε_i は正規分布に従う

残差は観測された誤差の推定であり、これらの前提が破られると推定量の分布や信頼区間、検定結果に影響します。例えば異方分散があると最小二乗推定量は依然として不偏だが最小分散ではなく、標準誤差が不適切になり推定の有意性判断が誤ることがあります。

残差の種類と変換

残差にはいくつかの派生形があります。用途に応じて使い分けることが重要です。

  • 生残差(raw residuals): e_i = y_i - ŷ_i。直観的だが観測ごとの分散差を考慮しない。
  • 標準化残差(standardized residuals): r_i = e_i / (s √(1 - h_ii))。ここで s は残差標準誤差、h_ii はハット行列の対角要素(レバレッジ)で、観測ごとの分散の違いを補正する。
  • 学生化残差(studentized residuals): 外れ値検出に有効な形式で、観測 i を除いた標本からの推定誤差で標準化する方法がある。

残差プロットによる診断

残差プロットは最も基本的かつ有効な診断ツールです。横軸に説明変数や予測値 ŷ を、縦軸に残差をプロットします。代表的なチェックポイントは次の通りです。

  • 系統的パターン: 曲線や扇形の形状はモデルの線形性違反や異方分散を示唆する。
  • 等分散性: 残差の広がりが予測値に対して一定であるかを確認する。扇形に広がる場合は異方分散の疑い。
  • 外れ値と影響点: 明らかに離れた点は個別に調査する。ハット値やCookの距離を併用する。

異方分散性の検出と対処

異方分散性を検出する統計的検定としては Breusch-Pagan 検定や White 検定がよく使われます。これらは残差の二乗を説明変数で回帰することで残差分散が説明変数に依存するかを検定します。

対処法は用途によって異なります。

  • 標準誤差の調整: ロバスト標準誤差(Huber-White)を用いれば推定量をそのままに推定の不確かさを補正できる。
  • 重み付き最小二乗法(WLS): 分散の逆数を重みとして最小二乗を行う。分散構造が既知または推定できる場合に有効。
  • 変換: 応答変数に対する対数やBox-Cox変換で分散を安定化できる場合がある。

自己相関の検出と対処

時系列データでは誤差の独立性が破られ自己相関が生じることがよくあります。Durbin-Watson 検定は一次自己相関を検出する代表的な手法です。詳細な自己相関構造があるときはARIMA型の誤差モデルや一般化最小二乗法(GLS)を用いてモデル化することが適切です。

レバレッジと影響度

ハット行列 H = X(X'X)^{-1}X' の対角成分 h_ii は観測点のレバレッジを表します。高いレバレッジを持つ点は推定に強く影響を及ぼす可能性があり、残差が小さくても影響が大きい場合があります。影響度を評価する指標として Cook の距離 D_i や DFBETAS などが使われます。

  • Cook の距離は観測点を取り除いたときのパラメータ推定の変化量を総合的に示す。
  • DFBETAS は各係数ごとの影響を示す指標で、どの係数がどれだけ変わるかを見るのに役立つ。

正規性の検定とQQプロット

残差の正規性は小標本での推定分布やp値の妥当性に影響します。Shapiro-Wilk 検定やKolmogorov-Smirnov 検定、Anderson-Darling 検定が利用されますが、実務ではQQプロットで形状を確認することが推奨されます。大標本では中心極限定理により係数推定の漸近的正規性が保たれるため、正規性の違反が必ずしも致命的ではない点に注意が必要です。

モデル改善と代替手法

残差診断で問題が見つかった場合の対応は目的に依存します。予測性能を重視するのか、因果推論や係数解釈を重視するのかで選択肢が変わります。

  • 予測重視: 非線形モデル、正則化手法(Ridge, Lasso)、決定木やブースティングなど、残差構造をモデル化せずとも性能で補う方法がある。
  • 因果推論や解釈重視: 変数変換、相互作用項の導入、部分最小二乗、もしくはGLSやWLSで誤差構造を適切に扱う。
  • 外れ値対応: ロバスト回帰(Huber, Tukey, M-estimators)を用いることで外れ値の影響を軽減できる。

実務上の注意点

いくつかの現場での注意点を挙げます。

  • 視覚的診断を軽視しない: 数値検定だけでは見落とすパターンがある。残差プロットやQQプロットを常に確認する。
  • 複数検定の扱い: 大量の説明変数や変数探索を行う際は偶発的に有意な残差パターンが出る可能性が高まるため検定の解釈に注意。
  • データの範囲外予測: ハット値が大きい外挿は危険。予測区間が大きくなることを明示する。
  • サンプルサイズの影響: 小標本では推定のばらつきが大きく残差の検定力が低下する。

まとめ

回帰残差は単なる誤差の残りではなく、モデルの仮定やデータの特性を検証するための最も直接的な手掛かりです。適切な残差診断とそれに基づく対応は、推定・検定の信頼性を高め、実務での意思決定に直結します。標準化や学生化残差、ハット値、Cook の距離、各種検定を組み合わせて多角的に評価することが重要です。

参考文献