線形回帰モデルの完全ガイド:OLSの原理から仮定・評価指標・実装・実務まで

線形回帰モデルとは:概要

線形回帰モデルは、統計学と機械学習の基礎的手法の一つで、目的変数(応答変数)と説明変数(特徴量)との関係を「線形」の形で表現・推定するモデルです。もっとも単純な形は単回帰(説明変数が1つ)で、複数の説明変数を扱うものは重回帰(多変量線形回帰)と呼ばれます。線形回帰は理解しやすく計算負荷が比較的低いことから、探索的解析・解釈・ベースラインモデルとして広く用いられます。

数学的定式化

重回帰モデルは一般に次のように表現されます。

y = Xβ + ε

  • y:n×1 の目的変数ベクトル
  • X:n×p のデザイン行列(各行が観測、各列が説明変数。定数項がある場合は列を1で追加)
  • β:p×1 の回帰係数ベクトル(推定対象)
  • ε:n×1 の誤差ベクトル(期待値0のランダム誤差)

最小二乗法(ordinary least squares, OLS)による推定量は、残差平方和を最小にする β̂ で与えられます。正則条件(X^T X が可逆)を仮定すると解析解は次の通りです。

β̂ = (X^T X)^{-1} X^T y

基本的な仮定(線形回帰を適用する前に確認すべき点)

  • 線形性:説明変数と目的変数の期待値が説明変数の線形結合で表現できる。
  • 独立性:誤差項εの観測間独立(時系列データでは自己相関が問題)。
  • 等分散性(ホモスケダスティシティ):誤差の分散が説明変数の値に依存しない。
  • 非多重共線性:説明変数間に強い線形依存がない(X^T X が特異にならない)。
  • 正規性(推論用):推定量の検定や信頼区間を正確にするために誤差が正規分布に従うと仮定することが多い。だが期待値や分散の推定自体には必須ではない。

OLSの性質とガウス=マルコフ定理

ガウス=マルコフ定理によれば、上記の仮定(特に誤差の期待値0、同分散、無相関、線形モデル)が成り立つ場合、OLS推定量は線形不偏推定量のうち分散が最小(BLUE:Best Linear Unbiased Estimator)です。ただし「最小分散」は線形かつ不偏な推定量の中での最小であり、非線形推定やバイアスを許す手法(正則化など)と比較した場合に必ずしも最適とは限りません。

モデル評価指標

  • 平均二乗誤差(MSE)や二乗平均平方根誤差(RMSE):予測誤差の大きさを評価。
  • 決定係数 R²:1 - SSE/SST(SSE = 残差平方和、SST = 全変動)でモデルがデータの変動をどれだけ説明するかを示す。0〜1で示されるが、説明変数を増やすと単純に増加するため注意が必要。
  • 修正決定係数(Adjusted R²):変数数に応じてR²を補正し過剰適合の影響を軽減。
  • AIC/BIC:モデル選択のための情報量基準。説明変数の数と対数尤度を考慮する。

診断と検定(実務での確認ポイント)

  • 残差プロット:残差と説明変数または予測値の散布を見て、非線形性や等分散性違反を検出する。
  • QQプロット:残差の正規性を視覚的に確認。
  • 自己相関検定(Durbin-Watsonなど):時系列データで誤差の独立性を確認。
  • VIF(Variance Inflation Factor):各説明変数の分散膨張因子。VIFが大きい(一般に10を超えるなど)場合、多重共線性が疑われる。VIF_j = 1/(1 - R_j^2)(ここでR_j^2はその変数を他の変数で回帰したR²)。

推定の数値的方法:勾配降下法と正則化

解析解が使えない場合(データが大きい、X^T X が特異または計算的に不利な場合)やオンライン学習では勾配降下法(確率的勾配降下法SGDを含む)が用いられます。学習率や収束判定が実装上のポイントです。

また、過学習や多重共線性に対処するために正則化が用いられます。代表的なもの:

  • リッジ回帰(L2正則化):βの二乗和にペナルティを課す。解析解は (X^T X + λI)^{-1} X^T y。X^T X が特異でも安定化する。
  • ラッソ回帰(L1正則化):係数の絶対値和にペナルティを課し、疎な(多くが0になる)解を得られるため変数選択にも使える。
  • Elastic Net:L1とL2の混合。

変数の扱いと前処理

  • カテゴリカル変数のダミー変換(one-hot encoding):線形モデルは数値入力を前提にするため、カテゴリはダミー変数に変換する。
  • スケーリング:正則化や勾配降下法を用いる場合、説明変数の標準化(平均0・分散1)や正規化は収束速度や正則化の解釈に重要。
  • 多項式特徴や交互作用項:線形性が疑われる場合、説明変数の多項式項や交互作用を導入して非線形関係を捉える(ただし過度な高次項は過学習の原因)。

解釈性と因果推論の注意点

線形回帰は係数の符号や大きさが直接的に解釈しやすいという利点があります。ただし「相関=因果」ではない点に注意が必要です。係数は条件付きの平均の変化(他の変数を固定したときの変化)を表すので、変数間に因果的な順序や交絡因子が存在する場合、単純な回帰係数から因果関係を読み取ることはできません。介入効果を推定したい場合は因果推論の枠組み(操作変数、差分法、ランダム化実験など)を検討すべきです。

限界と拡張

  • 限界:非線形な真の関係、外れ値・レバレッジ点の影響、説明変数の高次の相互作用を考慮しない点など。
  • 拡張:一般化線形モデル(GLM)は誤差分布やリンク関数を変えて二値・カウントなどのデータに対応する。カーネル回帰や決定木、ニューラルネットなど非線形モデルは線形回帰の代替となる。

実務での使い方:チェックリスト

  • データの可視化:説明変数と目的変数の分布・散布図を確認。
  • 欠損値や外れ値の確認と処理。
  • 必要に応じた変数変換(対数変換など)で線形性や等分散性を改善。
  • モデルの検定と診断(残差解析、VIF、情報量基準)。
  • 交差検証やホールドアウトで汎化性能を評価し、過学習を防ぐ。
  • 解釈可能性を重視する場合は係数の標準化(標準偏回帰係数)や部分効果を提示する。

実装上の注意点(計算と安定性)

解析解は便利だが、説明変数が多くなるとX^T Xの計算が高コスト(O(p^3)の逆行列計算)になり得る。またX^T Xが特異な場合は逆行列が存在しないため、擬似逆行列(Moore-Penrose逆行列)や正則化(リッジ)を使用するのが一般的です。大規模データでは確率的勾配降下法やミニバッチ法、または分散処理が有効です。

まとめ:いつ使うか、そして注意すべき点

線形回帰は解釈のしやすさ、計算の単純さから探索的解析やベースラインの予測モデル、ビジネス上の説明可能なモデルに広く使われます。しかし、モデルの仮定を確認せずに適用すると誤った結論を導く危険があるため、残差診断や正則化、クロスバリデーションといった実務的な対応をセットで行うことが重要です。因果推論が目的ならば追加の設計・手法が必要であることも忘れてはいけません。

参考文献