RBFカーネル完全ガイド:理論・実装・応用と最適化の実践
はじめに:RBFカーネルとは何か
RBF(Radial Basis Function)カーネルは機械学習における代表的なカーネル関数の一つで、特にサポートベクターマシン(SVM)やカーネル法(カーネルリッジ回帰、カーネルPCA、ガウス過程)で広く用いられます。特徴空間を明示的に構築せずに非線形な関係を学習できる点が強みで、ユークリッド距離に基づく局所的な類似度を指数関数的に減衰させた形をとります。
定義と数式
RBFカーネルの基本形は次のとおりです。
K(x, x') = exp(-\gamma ||x - x'||^2)
ここで x, x' は入力ベクトル、||x - x'|| はユークリッド距離、γ(ガンマ)は正のハイパーパラメータです。ガンマはしばしばガウスカーネルの文脈では γ = 1/(2σ^2) と書き換えられ、σ は「バンド幅」や「長さスケール」を意味します。
基本的な性質
正定値性:RBFカーネルは正定値(Mercerカーネル)であり、これにより多くのカーネル法の理論が成立します。
無限次元の特徴空間:RBFは無限次元の再生核ヒルベルト空間(RKHS)に対応し、理論的には任意の連続関数を任意精度で近似できる「普遍性」を持ちます(ただしデータと正則化の設定に依存)。
局所性:距離が離れると類似度は指数的に小さくなり、局所的な影響を重視します。
γ(ガンマ)とモデル挙動の関係
γ はモデルの滑らかさ(自由度)を制御します。直感的には次のようになります:
γ が小さい(σ が大きい)場合:カーネルの幅が広くなるため、離れた点同士でも類似とみなされやすくなり、モデルは滑らかでバイアス寄り(過学習しにくい)。
γ が大きい(σ が小さい)場合:カーネルが急速にゼロに落ち、非常に局所的な影響しか持たないため、複雑で分散の大きい(過学習しやすい)モデルになる。
SVMなどでは正則化パラメータ C と γ の相互作用が重要です。高γの場合は C を小さくして過学習を抑える等の調整が必要になります。
実装上の注意点と前処理
特徴量のスケーリング:RBFは距離に依存するため、各特徴量のスケールが異なると特定次元が支配的になります。標準化(平均0, 分散1)や正規化を行うことが基本です。
欠損値や外れ値:距離が敏感なので外れ値が影響します。必要に応じて対処すること。
カテゴリ変数:ワンホット化など距離が意味を持つ形に変換する必要があります。
計算コストとスケーラビリティ
カーネル行列(グラム行列)K は n×n(n はデータ数)となるため、メモリと計算が O(n^2) を要します。大規模データでは次の近似手法が有効です:
Nyström法:部分サンプルから低ランク近似を作ることで計算量を削減。
ランダムフーリエ特徴(Random Fourier Features, RFF):ボッホナーの定理を用いてRBFを有限次元の特徴写像で近似し、線形アルゴリズムを適用。
ミニバッチや確率的最適化:カーネル法自体とは相性が悪いが、近似手法と組み合わせることで適用可能。
RBFとガウス過程(GP)の関係
RBFはガウス過程の共分散関数(カーネル)として自然に使われます。GPではハイパーパラメータ(信号分散、長さスケール)を対数尤度(マージナルライクリフッド)で最適化でき、ベイズ的な不確実性推定が可能です。RBFカーネルは平滑で無限回微分可能なため、非常に滑らかな関数を仮定することになります。
実用的なハイパーパラメータの選び方
グリッドサーチ:C と γ を対数スケールで探索するのが一般的(例:γ ∈ {1e-3, 1e-2, 1e-1, 1, 10})。交差検証で汎化誤差を評価。
自動スケーリング:scikit-learn の 'scale' 初期値(γ = 1 / (n_features * X.var()))や 'auto'(γ = 1 / n_features)などのヒューリスティックを利用可能。
ベイズ最適化やランダムサーチ:高次元ハイパーパラメータ空間では効率的。
学習曲線とサポートベクトルの数:過学習の場合はサポートベクトル数が多くなる傾向があるので指標として利用。
RBFカーネルの限界と代替
等方性の仮定:RBF は全次元で同一スケールを仮定する。各次元ごとの重要度を学習したい場合は ARD(Automatic Relevance Determination)カーネルや個別長さスケールを持つカーネルを検討。
高次元スパースデータ(テキスト等):RBF は距離が情報になりにくいため、線形カーネルやコサイン類似度ベースの手法が有効な場合が多い。
大規模データ:近似手法(RFF, Nyström)や線形化(特徴変換→線形モデル)が必要。
応用例
SVM による非線形分類・回帰(SVR)
ガウス過程における共分散関数(回帰・ベイズ最適化)
カーネルPCA やスペクトラルクラスタリング:非線形次元削減やクラスタリング
カーネルリッジ回帰:正則化された非線形回帰
実践的なチェックリスト
特徴量の標準化を行う。
まずは粗いグリッドで γ と C を探索し、その後細かい探索に移る。
クロスバリデーションの分割はデータの特性(時系列なら時間順)に合わせる。
モデルの挙動を可視化できる場合は、γ の変化による決定境界や学習曲線を確認する。
大規模データでは近似法(Nyström、RFF)を検討する。
まとめ
RBFカーネルはその汎用性と理論的性質から多くの場面で第一選択となることが多い一方で、ハイパーパラメータの調整とデータ前処理(特にスケーリング)は不可欠です。データの規模や次元性、スパース性に応じて近似手法や代替カーネルを検討することで、実用上の性能と計算効率を両立できます。
参考文献
- scikit-learn: Support Vector Machines
- Carl Edward Rasmussen and Christopher K. I. Williams, Gaussian Processes for Machine Learning
- Ali Rahimi & Benjamin Recht, Random Features for Large-Scale Kernel Machines
- Bernhard Schölkopf and Alexander J. Smola, Learning with Kernels
- Williams & Seeger, Using the Nyström method to speed up kernel machines
- Wikipedia: Radial basis function kernel
投稿者プロフィール
最新の投稿
書籍・コミック2025.12.19半沢直樹シリーズ徹底解説:原作・ドラマ化・社会的影響とその魅力
書籍・コミック2025.12.19叙述トリックとは何か──仕掛けの構造と作り方、名作に学ぶフェアプレイ論
書籍・コミック2025.12.19青春ミステリの魅力と読み解き方:名作・特徴・書き方ガイド
書籍・コミック2025.12.19短編小説の魅力と書き方 — 歴史・構造・現代トレンドを徹底解説

