音楽解析で使う「パワースペクトル」入門と実践:理論・推定法・音楽への応用ガイド

パワースペクトルとは

パワースペクトル(power spectrum)は、信号の周波数成分ごとの「エネルギー(または平均的なパワー)」の分布を示す概念です。音楽信号においては、ある録音や音声がどの周波数帯域にどれだけのエネルギーを持っているかを可視化/定量化するために用いられます。理論的にはフーリエ変換により得られる周波数スペクトルの絶対値を二乗したものがパワースペクトルに対応し、ランダム信号の場合はパワー・スペクトル密度(PSD: power spectral density)として定義されます。

数学的な定義(概要)

連続時間信号 x(t) のフーリエ変換を X(ƒ) とすると、エネルギースペクトル密度は |X(ƒ)|^2 に比例します。一方、実世界の音楽信号は有限長かつ非定常(時間とともに性質が変化)であるため、離散時間での定義や確率過程としてのPSDが重要になります。離散フーリエ変換(DFT)を用いると、N 点のDFT X[k] に対して得られるパワースペクトルの基本形は |X[k]|^2 になります。実務ではスケーリング(例えば 1/N や 1/(fs*N) など)を置いて単位を揃え、周波数軸を線形や対数で表示します。

パワースペクトルと振幅スペクトルの違い

振幅スペクトル(magnitude spectrum)は |X(f)| を示し、パワースペクトルはその二乗 |X(f)|^2 です。音響的なエネルギーや物理量の観点からはパワースペクトルの方が直接的に意味を持ちます(電力・エネルギーに対応)。またデシベルで表現するときはパワー比なら 10*log10、振幅比なら 20*log10 を用いる点に注意してください。

推定方法(実用編)

  • 周期図(Periodogram): 最も単純な推定法で、信号全体のDFTを取り、その二乗を使います。簡便ですが分散(推定誤差)が大きいという欠点があります。
  • Welch 法: 信号を重複する短いセグメントに分け、それぞれに窓を掛けて周期図を計算し平均を取ることで分散を減らす手法です。窓関数とオーバーラップ率、セグメント長の選び方が性能に大きく影響します。
  • マルチテーパー法(Multitaper): データに対して複数の直交窓(Slepian シーケンス)を適用して複数のスペクトル推定を行い重み平均する方法で、バイアスと分散のトレードオフを改善します。特に短データや高精度が求められる場合に有効です。
  • 短時間フーリエ変換(STFT)ベース: 時間変化するスペクトルを追う場合は、一定長の窓で信号を区切ってDFTを取るSTFTが基本です。時間-周波数表示(スペクトログラム)は音楽解析で最も広く使われます。

窓関数、リーケージ、分解能

DFT の前に窓をかける理由は、有限長データが暗黙に周期拡張されることに伴うエネルギーの漏れ(リーケージ)を抑えるためです。窓の選択は主ローブ幅(周波数分解能)と副ローブの高さ(リーケージ量)のトレードオフになります。たとえば矩形窓は最も狭い主ローブを与えますが副ローブが高く、ハミングやハン窓は副ローブが低くリーケージに強い一方で周波数分解能は落ちます。ゼロパディングはFFTの出力点数を増やして周波数サンプルを細かく見せますが、実際の周波数分解能(近接する成分を分離する能力)は窓幅で決まることを理解しておく必要があります。

時間-周波数トレードオフ(可聴信号の非定常性)

音楽信号は短時間で変化するイベント(アタック、トランジェント)と持続音(共鳴、持続)が混在します。長い窓は周波数分解能が高く持続音のスペクトル解析に向きますが、短い時間イベントをぼかしてしまいます。逆に短い窓は時間解像度に優れますが周波数解像度が悪くなります。ウィンドウ長・重なり・窓形状の選択は解析目的に応じて決める必要があります。

実務上の注意点

  • サンプリング周波数とナイキスト: サンプリング周波数 fs により解析可能な最大周波数(ナイキスト周波数)は fs/2 です。楽器の高調波や倍音がナイキストを超えないようにサンプリング周波数を選ぶことが重要です。
  • 窓のエネルギーとスケーリング: 窓をかけると全体のエネルギーが変わるため、パワースペクトルを物理単位で比較する場合はスケーリング補正が必要です(窓の平均パワーで割る等)。
  • 対数周波数軸(或いはメル軸)での解析: 人間の聴覚は対数的な周波数解像度を持つため、音楽情報を扱う際にはメル尺度や対数周波数での表示・処理が有効なことがあります(スペクトル包絡の学習や音色特徴量の抽出など)。
  • パワーと知覚ラウドネスの違い: パワースペクトルは物理的エネルギー分布を示しますが、人間が知覚する音の「大きさ」は周波数依存(A特性等)かつ複雑です。解析結果を聴覚的に解釈するときは重み付けや心理音響モデルを考慮します。

音楽解析への具体的応用例

  • 音色(ティンバー)解析: 楽器の識別や音色特徴量の計算(スペクトル重心=brightness、スペクトルフラットネス=noisiness、スペクトルロールオフなど)はパワースペクトルを基に算出されます。倍音構造やスペクトル包絡の形状が音色に直結します。
  • ピッチと倍音の検出: 基本周波数の候補はパワースペクトル上の周期的ピーク列(倍音列)として現れるため、ピーク検出や相関ベースの手法と組み合わせてピッチ推定を行います。スペクトルにノイズが多い場合は多重窓やスペクトル平滑化が有効です。
  • オンセット検出とリズム解析: 短時間でのパワー変化(スペクトルフラックスやバンドごとのエネルギー変化)を見れば、音の立ち上がり(オンセット)や打楽器イベントを検出できます。低周波成分と高周波成分のエネルギー比も有用です。
  • スペクトル編集・等化(EQ): 特定周波数帯域に過度のエネルギーがある場合、パワースペクトルを用いてEQで補正します。修復やノイズ除去ではノイズのPSDを推定してスペクトル減衰を行うことがあります。
  • 音源分離・特徴抽出: スペクトル領域での非負値行列因子分解(NMF)や共通フィルタモデルは、パワースペクトル(またはパワーの対数)を入力とすることが多く、楽器ごとのスペクトル辞書学習に基づく分離に使われます。

推定の実践的ワークフロー(例)

  1. 解析目的を明確化(音色解析、オンセット検出、ノイズ推定など)。
  2. 適切なサンプリング周波数と窓長を選択(短いトランジェントは短窓、持続音の分析は長窓)。
  3. 窓関数とオーバーラップを決定し(Welch では通常 50% 〜 75% のオーバーラップなど)、必要ならマルチテーパーを検討。
  4. FFT サイズとゼロパディングの有無を決め、スペクトログラムや平均スペクトルを算出。
  5. 必要なら周波数帯ごとのエネルギー正規化、対数スケール変換、メル変換等を行い、特徴量抽出や可視化を実施。

よくある誤解と注意点

  • ゼロパディングは分解能を上げない:ゼロパディングでFFTの点数を増やしても実際の周波数分解能は窓幅で決定されます。ゼロパディングはピークの位置推定を滑らかに見せるための補間効果があるだけです。
  • 周期図の平均化はバイアスと分散のトレードオフ:平均化(Welch 等)は分散を減らすが、セグメント長を短くすると周波数分解能が下がるためバイアスが増える可能性があります。
  • パワーと音量(ラウドネス)を混同しない:単純なパワーの積算は必ずしも主観的な音量と一致しないため、聴感補正やA特性などを検討する必要があります。

まとめ(実務的インパクト)

パワースペクトルは音楽信号の周波数特性を理解する上で基本かつ強力なツールです。適切な窓・推定法・スケーリングを選ぶことで、楽器の音色分析、ピッチ検出、オンセット検出、ノイズ推定、音源分離など多くの音楽情報処理タスクに直接応用できます。設計時には時間-周波数分解能や推定の分散・バイアスのトレードオフを常に意識し、必要に応じてマルチテーパー法やWelch 法といったより堅牢な推定法を採用すると良いでしょう。

エバープレイの中古レコード通販ショップ

エバープレイでは中古レコードのオンライン販売を行っております。
是非一度ご覧ください。

エバープレイオンラインショップのバナー

また、レコードの宅配買取も行っております。
ダンボールにレコードを詰めて宅配業者を待つだけで簡単にレコードが売れちゃいます。
是非ご利用ください。
https://everplay.jp/delivery

参考文献