情報エントロピーとは何か — 理論、性質、ITでの応用を深掘り
はじめに
情報エントロピーは、情報理論の中心概念であり、確率分布の不確実性や平均的な情報量を定量化する尺度です。クロード・シャノンが1948年に提唱した概念で、データ圧縮や通信路容量、機械学習、暗号、ランダム性評価などIT領域における多くの基礎問題の理論的根拠となっています。本コラムでは定義から性質、計算例、連続分布との違い、熱力学的エントロピーとの関係、実務での注意点や応用まで詳しく解説します。
情報エントロピーの定義
離散確率変数Xが取りうる値xに対して確率P(x)が与えられるとき、シャノンエントロピーH(X)は次の式で定義されます。
H(X) = - sum_x P(x) log_b P(x)
ここでlog_bは対数の底であり、b=2を取れば単位はビット(bit)、b=eであれば単位はナット(nat)になります。エントロピーは各事象の自己情報量(情報量=-log P(x))の期待値として理解できます。確率が小さい事象ほど自己情報量が大きく、希少事象が多い分布ほどエントロピーが大きくなります。
基本的な性質
非負性: H(X) >= 0。確定的なランダム変数(ある値を確実に取る)のエントロピーは0。
最大値: 有限の値域サイズnに対して、最も不確実な分布は一様分布であり、H(X) ≤ log_b n。等確率のとき等式成立。
連鎖律(チェーンルール): H(X,Y) = H(X) + H(Y|X)。複合系のエントロピーは周辺エントロピーと条件付きエントロピーの和。
凹性: エントロピーは確率分布に対して凹関数であり、混合によって増加しうる。
周辺・条件付き・相互情報量
複数変数の扱いでは次の概念が重要です。
条件付きエントロピー H(Y|X) = E_x[H(Y|X=x)] は、Xを知ったときのYの残存不確実性を示します。
相互情報量 I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) は、XとYがどれだけ情報を共有しているかを表し、非負です。独立なら0。
クロスエントロピーとKLダイバージェンス: ある真の分布Pに対しモデルQの予測性能を評価する際に、クロスエントロピー H(P,Q) = - sum_x P(x) log Q(x) と相対エントロピー(KL) D_{KL}(P||Q) = sum_x P(x) log(P(x)/Q(x)) を用います。H(P,Q) = H(P) + D_{KL}(P||Q) の関係が成り立ちます。
例: エントロピーの数値計算
コイン投げの例を考えます。公平なコイン(表と裏がそれぞれ0.5)のエントロピーは H = -0.5 log2 0.5 - 0.5 log2 0.5 = 1 ビット。偏ったコイン(表0.9, 裏0.1)のエントロピーは H ≃ -0.9 log2 0.9 -0.1 log2 0.1 ≃ 0.469 ビット。つまり公平なコインはより多くの情報を与える。
連続分布と微分エントロピー
連続確率変数のエントロピーは微分エントロピー h(X) = -∫ p(x) log p(x) dx として定義されますが、これは離散ケースの性質を全て持たない点に注意が必要です。例えば微分エントロピーは座標変換に対して不変でなく、負の値を取りうる点が離散エントロピーと異なります。連続分布では差分エントロピーや相対的な比較(KLダイバージェンス)を使うことが実務的に重要です。
熱力学的エントロピーとの関係
シャノンの情報エントロピーと熱力学のボルツマン・ギブスのエントロピーは形式的に類似しています。熱力学では S = -k_B sum_i p_i ln p_i の形を取り、k_Bはボルツマン定数です。数学的には同じ負の和の形ですが、物理的次元や意味合いは異なります。情報エントロピーは確率分布の不確実性を扱い、熱力学的エントロピーは系のマクロな状態数やエネルギーの関与も含めた物理量です。両者を混同せず、文脈に応じて使い分けることが重要です。
IT分野での主要な応用
データ圧縮: シャノンの第一基本定理(源符号化定理)は、十分大きなブロック長で任意に近い平均符号長をエントロピーH(X)に近づけられることを保証します。Huffman符号や算術符号はエントロピーに近い圧縮率を実現します。
通信理論とチャネル容量: ノイズのある通信路に対して最大通信率はチャネル容量Cで与えられ、これはしばしば入力・出力の相互情報量の最大化問題として定式化されます。情報エントロピーはこの評価の基礎です。
暗号学とランダムネス: 鍵や乱数列の安全性評価にはエントロピー(特にエントロピー推定や真のエントロピー)が使われます。高いエントロピーは予測困難性の指標となりますが、暗号では単純なエントロピー指標だけで安全性を判断できない点に注意が必要です(構造情報や相関も重要)。
機械学習: 決定木やランダムフォレストでの分割基準としての情報利得(information gain)、分類問題でのクロスエントロピー損失、確率モデルの学習でのKLダイバージェンス最小化など、多数の場面でエントロピーが用いられます。
評価・可視化: 不確実性の可視化や特徴選択、モデルのキャリブレーション評価などにもエントロピーが役立ちます。
実務上の注意点とエントロピー推定
理論上のエントロピーは真の確率分布が既知であることを前提としますが、実務では有限データから推定する必要があります。有限サンプルバイアスによりエントロピー推定は過小評価される傾向があり、バイアス補正やスムージング、jackknifeやbootstrapといった手法の利用が推奨されます。また、高次元データでは次元の呪いにより正確な推定が困難です。実務ではパラメトリックモデルの仮定、最近傍法やカーネル法、または情報量に基づく近似尺度(例えば相互情報量を近似する方法)が用いられます。
計算例: 簡単な情報利得の計算
分類問題の特徴選択で用いられる情報利得を計算する簡単な手順を示します。クラスラベルYと特徴Xを考え、情報利得IG(Y,X) = H(Y) - H(Y|X)を計算します。H(Y)はラベルのエントロピー、H(Y|X)は特徴値ごとの条件付きラベルエントロピーの期待値です。IGが大きい特徴ほどラベルを予測する情報を多く持つと判断できます。
高度な話題: エントロピーの一般化
シャノンエントロピー以外にも、レニエントロピーやツァリスエントロピーといった一般化指数が存在し、長尾分布や相関の強い系の解析に使われます。これらは標準的シャノンエントロピーが適切でない場面で有用ですが、解釈や単位、極限挙動が異なるため用途に応じた選択が必要です。
まとめ
情報エントロピーは確率的不確実性を数値化する強力な概念で、データ圧縮、通信理論、機械学習、暗号などITの基盤に深く関わっています。理論的性質を理解するとともに、有限データ推定や連続分布の取り扱い、物理的エントロピーとの違いといった実務上の注意点も押さえておくことが重要です。適切なエントロピーの利用は、設計の最適化や性能評価に直結します。
参考文献
C. E. Shannon, A Mathematical Theory of Communication (1948)
T. M. Cover and J. A. Thomas, Elements of Information Theory
D. A. Huffman, A Method for the Construction of Minimum-Redundancy Codes (1952)
S. Kullback and R. A. Leibler, On Information and Sufficiency (1951)
投稿者プロフィール
最新の投稿
用語2025.12.21全音符を徹底解説:表記・歴史・演奏実務から制作・MIDIへの応用まで
用語2025.12.21二分音符(ミニム)のすべて:記譜・歴史・実用解説と演奏での扱い方
用語2025.12.21四分音符を徹底解説:記譜法・拍子・演奏法・歴史までわかるガイド
用語2025.12.21八分音符の完全ガイド — 理論・記譜・演奏テクニックと練習法

