残差プロット徹底解説:回帰診断と改善策を実務目線で解説
はじめに:残差プロットとは何か
残差プロット(residual plot)は、回帰分析における誤差(残差)を可視化するための基本的かつ強力な診断ツールです。残差は一般に「観測値 − 予測値(y - ŷ)」で定義され、予測モデルがデータに対してどのように適合しているか、また仮定(線形性、独立性、等分散性、正規性など)が満たされているかを検査するために用いられます。残差プロットは単に点の散らばりを見るだけでなく、パターンの有無によりモデルの欠陥や改善点を示唆します。
代表的な残差プロットの種類
残差対フィッテッド値プロット(Residuals vs Fitted): 一番基本的。横軸にモデルの予測値、縦軸に残差をとり、パターンや広がりの変化を確認します。
残差対説明変数プロット(Residuals vs Predictor): 特定の説明変数に対する非線形性や交互作用の見落としをチェックします。
標準化残差/学生化残差プロット: 残差を標準誤差で割った値を表示し、外れ値判定がしやすくなります。一般に±2または±3を閾値に使います。
正規確率プロット(Q–Qプロット): 残差の正規性確認に用いられます。直線からの大きな逸脱は非正規性を示唆します。
スケール–ロケーションプロット(Scale-Location または Spread-Location): 残差の絶対値の平方根をプロットして、等分散性(homoscedasticity)の確認を行います。
残差対レバレッジ(Residuals vs Leverage)とCook's distanceのコンター: 影響点(influential observations)を検出します。高レバレッジかつ大残差の点はモデルに大きな影響を与えます。
残差プロットで見つかる主要なパターンと意味
ランダムに散らばっている: 理想的。線形モデルの仮定(線形性、等分散、独立性、平均ゼロ)に矛盾しない。
曲線的なパターン(U字やS字): 目的変数と説明変数の関係が非線形である可能性。説明変数の変換(対数、二次項、スプライン)や非線形モデルを検討。
ファン状(広がりが増す/減る): ヘテロスケダスティシティ(非等分散)。分散が一定でないため、推定量の標準誤差・信頼区間が歪む。加重最小二乗(WLS)、分散安定化変換(対数やBox–Cox)、ロバスト標準誤差(Huber–White)などが対処策。
時間的に連続したパターン(波状や周期): 自己相関(特に時系列データ)。Durbin–Watson検定や自己回帰モデル(AR、ARIMA)、誤差項のモデル化が必要。
クラスタや離れたグループ: 重要な説明変数の欠落、サブグループの存在、または測定エラー。変数追加や階層モデル(mixed-effects)を検討。
極端な単独点(外れ値)や高い影響力点: データ入力ミス、特異な観測、または実際の重要な現象。外れ値の検出には標準化残差、学生化残差、Cook's distanceをチェック。除外前に必ず理由を確認。
統計的検定と指標
Breusch–Pagan検定/White検定: ヘテロスケダスティシティの検出。帰無仮説は等分散。
Durbin–Watson検定: 直列相関(特に一次自己相関)の検出。値が2に近ければ相関なし、0に近いと正の自己相関。
Shapiro–Wilk検定やKolmogorov–Smirnov検定: 残差の正規性検定。ただしサンプルサイズに依存し、小さな偏差でも有意になることがある。
Cook's distance: 各観測値が回帰係数に与える影響の尺度。目安は4/nまたは1など(文献により異なる)。
ハット行列の対角要素(leverages): 大きい値は高いレバレッジであり、説明変数空間で外れた位置にある観測。
発見された問題への具体的な対処法
非線形性: 説明変数の多項式項、対数・平方根変換、スプラインや一般化加法モデル(GAM)を導入。
ヘテロスケダスティシティ: 目的変数の変換(対数やBox–Cox)、加重最小二乗法(WLS)、またはロバスト標準誤差を使用。
自己相関: 時系列モデルに切り替え(AR、ARIMA、状態空間モデル)、誤差項に自己回帰構造を導入、ラグ変数を追加。
外れ値・影響点: 観察ミスの確認→修正または除外。ロバスト回帰(Huber、MM-estimatorなど)や切断点に対する感度分析を実施。
モデルの不適切な仮定(正規性の破れ): 大サンプルでは中心極限定理により推定量は頑健。小サンプルではブートストラップによる推定や分布に頑強な方法を検討。
実務でのチェックリストと可視化のコツ
必ず residuals vs fitted を最初に確認。最小限の異常(パターン、広がりの変化、極端な点)がないかチェック。
各説明変数ごとに残差プロットを作成し、関係の見落とし(非線形、相互作用)を探る。
Q–Qプロットとスケール–ロケーションプロットを併用して正規性と等分散を評価。
影響点の識別にはCook's distanceとレバレッジ値を併用。単一指標だけで判断しない。
サンプルサイズにより検定の解釈を注意(大きなサンプルでは小さな偏差でも有意、小さなサンプルでは検出力不足)。
変更を加えたら必ず再度診断プロットを確認する。1つの修正が別の仮定を侵害することがある。
よくある誤解と注意点
残差が正規でない=モデルが使えない、ではない。点推定はしばしば頑健だが、推定の標準誤差やp値解釈に影響する。
残差プロットの「ランダム」に見える定義は主観的。視覚検査と統計検定を併用すると誤判定を減らせる。
外れ値を安易に削除するのは危険。事象の実際の発生を示す場合があり、業務上重要な情報を失う可能性がある。
まとめ:残差プロットはモデル改善の出発点
残差プロットは単なる図ではなく、モデルがデータの生成過程をどこまで捉えているかを教えてくれる診断ツールです。正しい読み取りと適切な対処(変換、重み付け、非線形化、時系列モデル等)を行うことで、信頼性の高い推定と解釈が可能になります。実務では視覚的診断と統計的検定を組み合わせ、変更の前後で再診断する習慣をつけましょう。
参考文献
投稿者プロフィール
最新の投稿
用語2025.12.20スタジオエンジニアとは何か:役割・スキル・キャリアを詳解(レコーディングの実務ガイド)
お酒2025.12.20ぬる燗の魅力と楽しみ方:温度が引き出す旨味と合う酒・料理・燗付けのコツ
用語2025.12.20ミキサー完全ガイド:仕組み・種類・運用・選び方まで徹底解説
ゲーム2025.12.20ガンダム無双3徹底解説:機体・戦術・シナリオを深掘り

