ピッチ推定の基礎と最新手法:音楽解析・制作で使える理論と実践ガイド
ピッチ推定とは何か — 基本概念と用語整理
ピッチ推定(fundamental frequency estimation, F0 estimation)は、音声や音楽信号に含まれる基本周波数(F0)を自動的に推定する処理です。音楽では音高(音符で表される周波数中心)を検出することが目的となり、音楽情報検索(MIR)、自動譜面作成、ピッチ補正(Auto-Tune)、楽器調律、音源分離など幅広い応用を持ちます。
関連する重要用語:
- 基本周波数(F0):周期信号の繰り返し成分の周波数。人声や単音楽器のピッチに対応。
- 倍音(harmonics):F0の整数倍の周波数成分。楽器音色の特徴を形成する。
- 声門検出(voicing detection):フレームが有声音(ピッチあり)か無声音(ピッチなし)かを判定する処理。
- 単音(monophonic)vs. 多声音(polyphonic):単一音高のみか、同時に複数音高があるか。
なぜピッチ推定が重要か
音楽制作や解析の多くのタスクは、正確なピッチ情報を前提としています。自動譜面作成ではF0を音符に変換し、MIRではメロディ抽出やハーモニー分析に利用されます。さらに、ピッチ検出は音高補正やエフェクト処理(ピッチシフティング、ハーモナイゼーション)に直接関わり、ライブ処理では低遅延での推定が求められます。
基本的なアプローチの分類
ピッチ推定手法は大きく分けて時間領域手法、周波数領域手法、ケプストラムや混成手法、そして機械学習(特に深層学習)を用いる手法に分類されます。
時間領域手法
時間領域では、信号の自己相関(autocorrelation)や平均倍差関数(AMDF: Average Magnitude Difference Function)を用いて周期性を検出します。自己相関は周期性のある信号でピークを示すため、ピーク間隔から周期(=F0)を推定します。簡便なゼロ交差法(zero-crossing)は短時間の単純音に対しては高速ですが、ノイズや倍音の影響を受けやすい欠点があります。
周波数領域手法とケプストラム
FFTを使ってスペクトルを求め、ピーク検出やハーモニック構造を解析してF0を決定する方法があります。代表的なアイデアの一つにハーモニック・プロダクト・スペクトラム(Harmonic Product Spectrum, HPS)があります。ケプストラム(cepstrum)はスペクトルを対数に取り逆FFTすることで周期性(スペクトルの等間隔ピーク)を検出し、音高の判定に利用されます。
代表的なアルゴリズム(古典〜近年)
- YIN(de Cheveigné & Kawahara, 2002):自己相関の改良である差分関数を用い、バイアス補正と確率的ポストプロセッシングで高精度を実現。音声・音楽で広く用いられる。
- pYIN(M. Mauch & S. Dixon, 2014):YINの確率化により、連続的かつ確率的なF0出力と音高(ノート)推定に強い。librosaなどで実装が利用可能。
- SWIPE(Sawtooth Waveform Inspired Pitch Estimator):スペクトルの相関的スコアリングで音高を推定し、倍音構造に頑健な設計。
- HPS(Harmonic Product Spectrum):スペクトルを整数倍で縮小し積を取ることで基本周波数のスコアを高める単純で効果的な手法。
- CREPE(Convolutional Representation for Pitch Estimation, 2018):深層学習ベースで、生波形から直接ピッチ確率を出力。モノフォニックな音声・歌や一部楽器で高精度を示す。
単音推定と多音推定の違い
単音(モノフォニック)推定は単一のF0を出すタスクで、上記の手法が比較的よく機能します。一方で多声音(ポリフォニック)推定は複数の同時発音を分離して各F0を検出する必要があり、非常に難易度が高い分野です。多音ではスペクトルが重なり、倍音が混在するため、音源分離や複数の仮説を評価する手法(例えば多音符抽出アルゴリズムや確率的モデル、深層学習による直接推定)が用いられます。
前処理・後処理の重要性
ピッチ推定の精度向上には前処理(プリプロセッシング)と後処理(ポストプロセッシング)が重要です。前処理にはノイズリダクション、帯域フィルタリング(例えば50 Hz〜2000 Hzのように人声や多くの楽器のF0レンジに限定)、ダウンサンプリング、ウィンドウリングなどがあります。中心化(zero-mean)やセンタークリッピング(center clipping)によって倍音の影響を抑制することもあります。
後処理では、連続フレーム間での滑らかさを保つための追跡アルゴリズム(カルマンフィルタやViterbiによる最尤トラッキング)、オクターブ誤検出(F0の2倍や1/2を誤推定する現象)の訂正、voicing判定のヒューリスティック化などが行われます。
評価指標とベンチマーク
ピッチ推定の性能評価では、単純な平均誤差だけでなく、音高推定固有の指標が使われます。代表的な指標:
- Gross Pitch Error (GPE):F0が大きく外れた割合(通常、誤差が半音以上や一定比率以上の場合)
- Fine Pitch Error (FPE):許容範囲内での平均誤差
- Voicing Recall / Precision:有声音判定の再現率・適合率
- Raw Pitch Accuracy (RPA), Raw Chroma Accuracy (RCA):MIREXなどで使われる評価指標(RPAは正しく推定されたフレームの割合)
実データセットとしては、MedleyDB、MIR-1K、MUSDB、MIREXのタスク用データセットなどがベンチマークで頻用されます。
実装上の注意点と現場でのコツ
・フレーム長とホップサイズの選定:時間分解能と周波数分解能のトレードオフです。短いフレームは時間精度が高く瞬時変化に強いが周波数分解能が低く、長いフレームは周波数が精密に取れるが時間遅延が増します。歌や楽器のビブラートを追うなら短め、安定した楽器音なら長めに。
・帯域制限:F0のレンジ外の低周波・高周波ノイズは除去することで誤検出を減らせます。
・オクターブ誤差対策:倍音の最強成分に引っ張られて2倍・1/2倍を選んでしまう問題。自己相関法やYINのように周期性を直接扱う手法や、倍音構造を評価して最尤のF0を選ぶことで改善できます。
・リアルタイム性:低遅延処理が求められる場面では、短時間窓と効率的なアルゴリズム(例えば軽量なニューラルモデルや低次計算量の自己相関法)を選び、遅延のない後処理(非遅延平滑化)を設計する必要があります。
深層学習の台頭とメリット・デメリット
近年はCREPEのように生波形をそのまま入力に取り、ピッチ確率(あるいはF0の連続値)を出力する畳み込みネットワークが高い性能を示しています。メリットは特徴設計を人手で行う必要が減ること、雑音下でも学習により頑健になること。デメリットは大量のラベル付きデータを必要とすること、学習済みモデルの一般化(異なる楽器や録音条件)や解釈性の問題、計算コスト(特にリアルタイム)の問題です。
多音解析や音源分離との連携
複雑な音楽信号では、まず音源分離を行ってから各音源のF0を推定するアプローチが有効なことがあります。最近の研究では、音源分離とF0推定を同時に学習するマルチタスクネットワークや、スペクトログラム上でのピッチマップを直接推定する手法が開発されています。これにより、重なった倍音から各音のF0を復元する精度が向上しています。
ピッチの定量表現:周波数とセント
ピッチの差を音楽的に表現するには「セント」がよく使われます。セントは対数尺度で、1オクターブ=1200セントです。周波数比 f2/f1 をセント差 c に変換する式は:
c = 1200 × log2(f2 / f1)
この尺度は等音程感(対数的な耳の感度)に適合し、微妙なピッチズレ(チューニングのずれ)を評価するのに便利です。
実務での応用例
- 自動譜面作成:F0時系列を音符に量子化してMIDIに変換。voicing判定とノート境界検出が鍵。
- ピッチ補正:検出したF0を目標音高に移動(セント単位で補正)し、位相や倍音を滑らかに保つ合成処理を行う。
- 音楽情報検索:メロディ検索、キー推定、ハーモニー解析など、F0は重要な特徴の一つ。
- 楽器チューニングと演奏解析:演奏者のイントネーション分析やアーティキュレーション解析に利用。
課題と今後の研究方向
ピッチ推定の今後の課題としては、多音楽器の完全自動化(特に同一周波数帯域での重なり)、低SNR環境での精度改善、リアルタイム高精度化、少量データでの学習(few-shot)などが挙げられます。また、人間の聴覚により近いピッチ知覚モデルを取り入れる研究や、音色情報を並行利用する統合的手法も注目されています。
まとめ — 実践ガイドライン
- モノフォニックな歌や単音楽器であれば、まずYIN/pYINやCREPEのような既存の実装を試す。librosaのpyinは手軽で信頼性が高い。
- ノイズが多い場合は前処理で帯域フィルタとノイズ抑制を行う。必要に応じて学習ベースの手法を検討する。
- 多声音の解析は音源分離や多音専用モデルの導入を検討する。単純なピーク検出では限界がある。
- 評価はデータセットと目的に応じてGPE/FPEやRPA等の複数指標で行う。
エバープレイの中古レコード通販ショップ
エバープレイでは中古レコードのオンライン販売を行っております。
是非一度ご覧ください。

また、レコードの宅配買取も行っております。
ダンボールにレコードを詰めて宅配業者を待つだけで簡単にレコードが売れちゃいます。
是非ご利用ください。
https://everplay.jp/delivery
参考文献
- de Cheveigné, A. & Kawahara, H. (2002). YIN, a fundamental frequency estimator for speech and music. The Journal of the Acoustical Society of America.
- librosa: pyin — Probabilistic YIN implementation (Mauch & Dixon の pYIN に基づく実装)
- Kim, J., Salamon, J., Li, P., & Bello, J. P. (2018). CREPE: A Convolutional Representation for Pitch Estimation. arXiv:1802.06194.
- MIREX — Music Information Retrieval Evaluation eXchange(音楽情報検索のベンチマークと評価指標)
- MedleyDB — マルチトラック音楽データセット(ピッチ推定・音源分離のベンチマークに利用)
投稿者プロフィール
最新の投稿
ビジネス2025.12.28納入元の選び方と管理戦略:リスク低減とコスト最適化ガイド
ビジネス2025.12.28供給元戦略の最前線:選定・リスク管理・持続可能性で競争優位を築く
ビジネス2025.12.28調達先戦略:リスク低減と競争優位を生むサプライヤー選定と管理の実務ガイド
ビジネス2025.12.28納入業者選定と管理の完全ガイド:リスク低減・コスト最適化・関係構築の実践法

