ガウス分布(正規分布)とは何か?定義・性質・推定・多変量分布と機械学習・信号処理での活用

ガウス分布とは — 概要

ガウス分布(正規分布とも呼ばれる)は、連続確率分布の中で最も基本的かつ重要なものの一つです。データや誤差が「平均値の周りに左右対称に広がる」場合に自然に現れ、統計学・信号処理・機械学習・通信工学などIT分野の多くの場面で仮定・近似・解析の基盤として使われます。中心極限定理により、多くの独立な要因の和は近似的にガウス分布に従うため、現象のモデル化に広く適用可能です。

定義と基本的な数式

1次元のガウス分布(平均 μ、分散 σ²)の確率密度関数(PDF)は次で与えられます。

f(x) = (1 / (σ * sqrt(2π))) * exp( - (x - μ)² / (2σ²) )

ここで μ は期待値(平均)、σ² は分散、σ は標準偏差です。分布は左右対称の「ベル型」をしており、以下の経験則が成立します(標準偏差 σ に基づく):

  • 約68% の確率質量が μ ± 1σ の範囲内
  • 約95% が μ ± 2σ の範囲内
  • 約99.7% が μ ± 3σ の範囲内

累積分布関数(CDF)は標準正規分布の表(または誤差関数 erf を通じて)で求められます。CDF に閉じた初等関数形はなく、数値計算によって評価されます。

性質

  • 対称性: 中心 μ で左右対称。
  • モーメント: 1次モーメントは μ、分散は σ²。高次モーメントも解析的に得られる。
  • 再生性: 独立なガウス変数の和は再びガウス分布(平均は和、分散は和)になる。
  • 最尤推定(MLE): パラメータ μ, σ² の最尤推定量はサンプル平均とサンプル分散(MLEでは分母 n、標本の不偏推定では n−1)で与えられる。
  • 情報量: ガウス分布は同じ分散で最大エントロピーを持つ分布(最も無知な分布)である。

多変量ガウス分布(多次元)の定義

次元 k の多変量ガウス分布は平均ベクトル μ(k×1)と共分散行列 Σ(k×k、対称正定値)で定義され、密度は次のようになります。

f(x) = (1 / ((2π)^{k/2} * |Σ|^{1/2})) * exp( -1/2 * (x - μ)^T Σ^{-1} (x - μ) )

ここで (x - μ)^T Σ^{-1} (x - μ) はマハラノビス距離の2乗に相当します。共分散行列 Σ は変数間の相関とスケールを表現します。Σ が対角行列であれば各要素は独立(無相関)のガウス成分となります。

推定と推論(実務でよく使う点)

  • 最尤推定: 与えられたデータ {x_i} に対して μ_hat = (1/n) Σ x_i、Σ_hat_MLE = (1/n) Σ (x_i - μ_hat)(x_i - μ_hat)^T。標本共分散の不偏推定は分母を (n−1) にする。
  • 対数尤度: 多次元の対数尤度は -1/2 * (k ln(2π) + ln|Σ| + (x-μ)^T Σ^{-1} (x-μ))。数値計算では対数尤度を直接使うのが安定。
  • 数値安定性: 行列式の対数 ln|Σ| はコレスキー分解 Σ = L L^T を用いると ln|Σ| = 2 Σ ln(diag(L)) として安定に計算できる。
  • サンプリング: 多次元ガウスのサンプリングは標準正規ベクトル z を生成し、x = μ + L z(L は Σ のコレスキー因子)で行うのが一般的。

中心極限定理とその意味

中心極限定理(CLT)は、多くの独立同分布の確率変数の和(あるいは平均)が、分布の形にかかわらず、十分なサンプルサイズで正規分布に近づくという結果です。これがガウス分布が「自然に」現れる根本的な理由で、統計的検定や信頼区間、ヒストグラムの近似などに広く用いられます。

IT・機械学習における応用例

  • 線形回帰: 目的変数にガウスノイズを仮定すると最小二乗法が最尤推定と一致する。
  • ベイズ推定: 事前分布にガウスを選ぶと解析解が得やすく、(既知分散の場合)ガウス-ガウスの共役性がある。
  • ガウス混合モデル(GMM): クラスタリングで各クラスタをガウスでモデル化し、EMアルゴリズムでパラメータ推定する。
  • カルマンフィルタ: 線形動的モデルとガウス誤差の前提で最適推定(フィルタリング)を行う。時系列推定やロボティクスで広く利用。
  • ガウス過程(GP): 関数分布にガウス過程を仮定し、回帰や分類の柔軟な非パラメトリック手法を提供。
  • 異常検知: マハラノビス距離やガウス密度による確率的閾値により異常サンプルを検出。
  • 通信/信号処理: アディティブ・ホワイト・ガウス・ノイズ(AWGN)は通信チャネルの基本モデル。
  • 次元削減: 確率的PCAや因子分析はガウス仮定のもとで導かれる。PCA自身は分散を最大化する線形変換であり、ガウスノイズモデル下で尤度最大化と対応する場合がある。

実装上・数値上の注意点

  • 分散や共分散が非常に小さい/ゼロに近い場合、数値的に不安定になる。寄与の小さい固有値に対しては正則化(対角に小さな値を足す)を行うことが一般的。
  • 密度の直接計算はアンダーフローしやすいので、対数尤度を使う。多変量の場合はコレスキー分解で Σ の逆と行列式の対数を効率的に計算する。
  • 高次元では「次元の呪い」に注意。高次元ガウスの確率密度は集中現象を示し、距離ベースの手法は挙動が変わる。
  • サンプル分布が外れ値や重い裾を持つ場合、ガウスは不適切。ロバスト推定やStudent’s t 分布などの利用を検討する。

ガウス分布の限界と代替案

ガウス分布は解析的に扱いやすく多くの理論的利点を持ちますが、実データは外れ値や歪度(非対称性)、重い裾(heavy tails)を持つことが多く、その場合ガウス仮定は誤った結論を導きます。代替としてはスチューデントt分布、混合分布、非パラメトリック手法、あるいは変換(対数変換など)を用いることが多いです。

まとめ

ガウス分布は統計・機械学習・信号処理の基礎概念で、中心極限定理により自然に出現すること、解析性と計算面での扱いやすさ、そして多くのアルゴリズム(回帰、クラスタリング、状態推定、ガウス過程など)で中核的に使われることが特徴です。一方でデータの外れ値や重い裾には弱く、実務では仮定の妥当性を検証し、必要に応じて代替モデルや正則化を用いることが重要です。

参考文献