ITで使うセントロイドとは — クラスタリング・埋め込み・実装上の注意点を深堀り

はじめに:セントロイドとは何か

セントロイド(centroid)は、幾何学や物理学で「重心」や「中心点」を指す概念ですが、IT分野、特に機械学習やデータ処理の領域では、データ集合の代表点として頻繁に用いられます。本稿では数学的定義からアルゴリズム実装、実務的な注意点、応用例まで幅広く、かつ深掘りして解説します。

数学的定義と基本式

最も基本的な定義は、n 個の点 x_i(各点は d 次元ベクトルとする)のセントロイドは単純に各次元の算術平均をとったベクトルです:

c = (1/n) Σ_{i=1..n} x_i

これは均一重みの場合の式です。重み w_i がある場合は重心(加重セントロイド)として

c = (Σ w_i x_i) / (Σ w_i)

となります。幾何学的図形(例えば多角形)のセントロイドは面積分を用いる定義になり、単純多角形では頂点座標から面積加重で求める閉形式があります(後述)。

幾何学的なセントロイド(多角形・三角形)

三角形のセントロイドは頂点の平均で、重心は各辺の中点を結ぶ線の交点として得られます。非自己交差な多角形のセントロイドは次のような式で計算可能です(頂点が順序付けられている場合):

円周を分割する面積加重の和として、頂点座標と多角形の面積を用いる式が用いられます。これによりポリゴン中心の正確な座標が得られます(詳細な式は参考文献を参照してください)。

クラスタリングにおけるセントロイド:k-means と Lloyd アルゴリズム

機械学習における代表的な用途は k-means クラスタリングです。k-means は各クラスタの代表点としてセントロイドを用い、以下の反復を行います:

  • 各点を最も近いセントロイドに割り当てる(割当ステップ)
  • 各クラスタのセントロイドを割当点の平均で更新する(更新ステップ)

この手法は Lloyd のアルゴリズムとして古典的で、ユークリッド距離に基づく二乗誤差和(inertia)を最小化しようとします。初期値に敏感であるため、複数回の初期化や k-means++ のような初期化戦略が重要です。

初期化と k-means++

k-means の性能は初期セントロイドに強く依存します。k-means++ は確率的に遠い点を選ぶことで初期セントロイドを決め、良好な近似解に到達しやすくする手法です。実務では初期化回数を増やしたり、k-means++ を用いることで局所最適へ陥るリスクを低減します。

ミニバッチとオンライン更新

データセットが大きい場合、全データに対して毎回平均を再計算するのはコストが高くなります。ミニバッチ k-means やオンライン更新は小さなバッチや1点ずつの到着に対してセントロイドを更新する手法です。典型的なオンライン更新式は次の通りです:

c_new = c_old + η (x - c_old)

ここで η は学習率(例えば 1/n_cluster_points)で、到着順に応じて増減します。これによりストリーミングデータや大規模データに対して効率的に近似セントロイドを保持できます。

類似性と距離尺度:ユークリッド vs コサイン

セントロイドを利用する際、データの正規化と距離尺度の選択は結果に大きく影響します。ユークリッド距離は平均ベクトルが最適な代表となりますが、テキスト埋め込みのような場合はコサイン類似度が好まれることが多く、コサイン類似度を用いる場合はベクトルを L2 正規化してから平均を取るか、平均を取った後に再正規化することが一般的です。正規化方法によっては「平均ベクトル=最良のセントロイド」ではなくなる点に注意が必要です。

高次元と次元の呪い

高次元空間では距離の分布が集中し、近傍概念が薄れるため、セントロイドベースのクラスタリングの有効性が落ちることがあります。次元削減(PCA、t-SNE、UMAP)や特徴選択、スケーリングは事前処理として重要です。また高次元での数値不安定性を避けるため、データ型の選択(float32 vs float64)や正規化の扱いを検討してください。

外れ値の扱いとロバストな代表点

単純な平均は外れ値に敏感です。外れ値の影響を抑える手法としては、k-medoids(クラスタの代表を実在点にする)、trimmed k-means(外れ値的ポイントを無視して平均を計算)、または中央値ベースの手法などがあります。実務では外れ値検出を前段に入れるか、ロバスト統計量を用いるのが一般的です。

評価指標

セントロイドを用いたクラスタリングの評価にはいくつかの指標があります:

  • inertia(総二乗距離): セントロイドからの二乗距離和
  • シルエット係数: クラスタの密度/分離具合を評価
  • Davies–Bouldin 指数: クラスタ間の類似度を評価

これらを組み合わせてクラスタ数 k の選定や前処理の良し悪しを判断します。

セントロイドの実務的応用例

  • テキスト埋め込み: ドキュメントの平均埋め込み(centroid)を作成して類似文書検索に利用
  • ベクトルデータベース: 各クラスタにセントロイドを保持し検索の高速化(近似最近傍、インデックスの階層化)
  • 画像処理: 色量子化(例: k-means による代表色の抽出)
  • センサーネットワーク: センサ群の代表点でデータ集約・省電力化
  • プロトタイプ分類器: 各クラスの平均ベクトルを用いる単純分類

分散処理とスケーラビリティ

大規模データでは MapReduce スタイルで部分セントロイドを計算し、最終的にマージしてグローバルセントロイドを得る戦略が使えます。各パーティションで(合計ベクトル、合計重み)を保持しておき、最終段階で全てを合算して平均を計算することで数値的にも効率的に計算できます。

数値的注意点と安定性

セントロイド計算では累積誤差に注意が必要です。大量の点を 32-bit 浮動小数で逐次加算すると丸め誤差が増えます。可能であれば 64-bit を使うか、Kahan の合算アルゴリズムなどの安定化手法を用いてください。また、重み付けやスケーリングの順序も結果に影響します。

実装のヒント

  • バッチ更新からオンライン更新へ:メモリ制約やレイテンシ要件に応じて切り替える
  • 初期化を複数回試す:ローカル最適を避けるために複数シードで実行
  • 正規化の一貫性:トレーニングと推論で同じスケーリングを使う
  • 距離計算の最適化:平方距離の比較で平方根を避けるなど

まとめ

セントロイドはシンプルながら幅広い応用を持つ概念で、クラスタリング、埋め込み処理、データ集約などITの多くの場面で中核的役割を果たします。一方で初期化、距離尺度、外れ値、高次元問題、数値安定性など実務的な落とし穴も多く、これらを理解して対処することで信頼性の高いシステムが構築できます。本稿がセントロイドの理解と運用に役立てば幸いです。

参考文献