和音認識の究極ガイド:理論・耳・AIで読み解く和音解析の基礎と応用
和音認識とは何か — 定義と重要性
和音認識(和音検出、Chord Recognition)は、音楽における短時間の音響信号や楽譜データから同時に鳴っている音の集合を解析し、和音ラベル(例:C、Am、G7、Fmaj7sus2など)を推定する技術・技能の総称です。ポピュラー音楽の自動解析、楽曲自動生成、楽譜作成、音楽教育アプリ、楽曲の検索・推薦など、多くの応用があり、音楽情報処理(MIR: Music Information Retrieval)分野では主要なタスクの一つです。
基礎理論:和音の構造と表記
和音を正確に認識するためには、まず和音の理論的構造を理解する必要があります。基本要素は次の通りです。
- ルート(根音):和音の基準となる音。例えばC和音のルートはC。
- 3度・5度などの並び(トライアド):メジャー(長3度+完全5度)、マイナー(短3度+完全5度)、減(短3度+減5度)、増(長3度+増5度)等。
- テンション・拡張(7th, 9th, 11th, 13th):和音に色彩を加える音。例:C7、Cmaj7、Cm9など。
- 転回形(inversion):ルート以外の音が最低音に来る場合。和音の指標は変わらないが実際の音響は変化する。
- 分数コード・表記法:ベース音を明示するC/Gといった表記。
表記には国際的に慣用される短縮(C, Cm, C7, Cmaj7, Csus4, Cdim など)やローマ数字による機能的表記(I, ii, Vなど)があります。和音認識の目的によって、採用するラベルセット(ボキャブラリ)が異なります。シンプルにメジャー/マイナー/7th等に限定するか、テンションまで細かく扱うかで難易度は大きく変わります。
耳による和音認識(聴音)の技法と訓練
人間の音楽家が行う和音認識は、周波数分析、音高の相対関係、テンポやメロディの文脈を総合して行われます。耳を鍛えるための基本は次の通りです。
- 音程トレーニング:各種インターバル(長3度、完全5度など)を聞き分ける。
- 和声音の判別:単純なトライアド(長・短・減・増)を識別する練習。
- 転回形とベース感覚:最低音を注意深く聞き、和音の構造との対応を取る。
- テンションと色彩:7度・9度などの付加音の違いを意識する。
耳の訓練には専用アプリ(例:EarMaster、Functional Ear Trainer)やピアノを使った実践が有効です。コードが進行する文脈(キー感や和声的機能)を同時に学ぶことで、より確度の高い認識が可能になります。
スコア・シンボル解析:楽譜情報を使った和音認識
楽譜やMIDIなどの記譜情報が得られる場合、和音認識は比較的容易です。MIDIでは同時に発音されたノート集合からピッチクラスを抽出し、既定のラベル辞書と比較することで和音を決定します。楽譜では声部の扱いや転回形、ベースノートの明示などを考慮に入れます。ただし、演奏上の表現やオルタネイトベース(ベースの動き)により和音ラベルが曖昧になり得ます。
音声信号処理による和音認識 — 特徴量と前処理
オーディオ信号から和音を推定する場合、まず有益な特徴量を抽出します。代表的なのは次の通りです。
- クロマ(Chroma, Pitch Class Profile):12のピッチクラス強度を示す特徴。和音認識で最も多用。
- Constant-Q Transform(CQT):音高解像度が対数周波数軸で高い変換。クロマ抽出の前処理として有効。
- 短時間フーリエ変換(STFT):周波数領域の基本情報。ハーモニクス解析に使用。
- スペクトル減少・ノイズリダクション、音高の追跡(F0推定):楽器混合下での有効性を高める。
これらの前処理は、楽器の倍音構造、音量バランス、テンポ変化に強く影響されるため、実装では正規化や時間的平滑化(移動平均、畳み込み)を併用します。
古典的手法:ルールベース・確率モデル
初期の自動和音認識システムは、(1) クロマベクトルを事前に定義した和音テンプレートと比較してラベルを推定し、(2) その後HMM(隠れマルコフモデル)やベイジアンモデルで時系列的なスムーズさを補正する、という手法が主流でした。テンプレートは平均的なピッチクラス分布を示すため、単純かつ解釈性がありますが、実音での倍音干渉や楽器の違いには弱いという欠点があります。
非負値行列因子分解(NMF)とソース分離
NMFや類似の行列分解を用いてスペクトルを楽器ベースやハーモニクス成分に分解し、成分ごとのピッチクラス分布を見て和音を推定するアプローチがあります。これにより、複数楽器が混ざる場面でもある程度の分離と判定が可能です。ただし、教師なしでの分解は解釈性や安定性に課題があります。
機械学習・深層学習の進展
近年は深層学習(CNN、RNN、CRNN、Transformerなど)を用いることで、特徴抽出と時間的文脈の学習を同時に行う手法が主流になっています。代表的なポイントは次の通りです。
- 畳み込みニューラルネットワーク(CNN):クロマやCQTを入力として局所的なスペクトルパターンを検出。
- リカレント層/LSTM/GRU:和音進行の時系列的文脈を学習し、隣接フレームとの整合性を保つ。
- CRNN(畳み込み+再帰):スペクトル特徴と時間依存性を同時に扱えるため実用的。
- セマンティックラベルの階層化:まずメジャー/マイナーを判定し、その上で拡張を推定する多段階分類。
- データ拡張:ピッチシフト、タイムストレッチ、ミックスを用いて汎化性能を向上。
ディープモデルは高精度を達成しやすい反面、大量の注釈付きデータと計算資源が必要です。またラベルの不一致(アノテーションの主観性)による学習ノイズも問題となります。
評価指標とベンチマーク
和音認識の評価は、単純なフレーム単位正解率(frame accuracy)や曲単位の平均正解率の他に、半音のずれを許容する評価やMIREX(Music Information Retrieval Evaluation eXchange)で用いられる特殊なスコアが使われます。MIREXのAudio Chord Estimationタスクは研究コミュニティの代表的ベンチマークで、参照データセットと計測方法が公開されています。
代表的データセット
研究・開発でよく用いられるアノテーション付きデータセットには次のようなものがあります。
- Isophonics(特にビートルズなどの注釈) — 一部楽曲の和音・コード注釈を公開。
- McGill Billboard Dataset — ポピュラー曲のコード・注釈を多数収録。
- RWC(Real World Computing)コーパス — 幅広いジャンルのデータ。
- SALAMI(多様な楽曲の構造注釈を含む) — 部分的にラベルが利用可能。
これらのデータセットは著作権の都合上、使用条件があるため注意が必要です。また、アノテーションの基準(ルートの扱い、拡張の記述方法など)がデータセット間で異なるため、比較実験時はラベルセットの統一が必要です。
実務上の課題と落とし穴
和音認識を実装・運用する際に注意すべき点は多くあります。
- 複雑な楽器編成:ピアノ、ギター、シンセが混在すると倍音構造や音色が干渉する。
- テンポやアタックの違い:短いフレームでの判定はノイズに弱い。
- 転回形とベースの扱い:ルートの推定と最低音ベースの不一致によりラベルが揺れる。
- アノテーションの主観性:演奏者やアナライザーによってコードラベルが異なる。
- 拡張ラベルの過剰表現:ユーザー側で扱えないほど細かいラベルは実利が少ない。
実装上のベストプラクティス
実用的な和音認識システムを作る際の推奨事項は以下の通りです。
- 目的に応じたラベルセット設計:教育用途か自動伴奏用かで粒度を決定する。
- 前処理の徹底:CQT→クロマ→正規化→時間平滑化など安定化処理を入れる。
- データ拡張とクロスドメイン検証:ジャンルや音源が偏らないようにする。
- 時系列モデルの活用:HMMやRNNで予測の連続性を担保する。
- ポストプロセスの導入:音楽理論に基づく制約(キー、ダイアトニック制約)で誤検出を抑える。
応用例と実世界での利用
和音認識の応用は多岐にわたります。自動伴奏生成、楽曲のハーモニー可視化、コード譜作成アプリ、音楽教育(コード進行の練習支援)、楽曲データベースの検索(特定のコード進行での検索)などがあります。商用サービスの多くは、精度よりも使いやすさ(表示のわかりやすさや編集のしやすさ)を重視しています。
学習者・研究者向けの実践的アドバイス
これから和音認識を学ぶ人、あるいは研究を始める人向けに実践的な進め方を示します。
- 基本は耳と理論:耳で和音を判別できることが研究・実装の理解を深める。
- 小さく始める:まずはMIDIやシンプルなピアノ音源でアルゴリズムを試す。
- ベースライン実装:クロマ+テンプレート+HMMのパイプラインをまず作る。
- データと評価の整備:使うデータセットと評価指標を明確にした上で改善を重ねる。
- コミュニティ参照:MIREXの結果や既存研究をベンチマークにする。
今後の展望
ディープラーニングの進展により、楽器依存性や雑音下での性能が向上しています。さらに、トランスフォーマーベースの長期依存性モデルやマルチタスク学習(同時にキー推定、ビート検出、メロディ抽出を行う)などが期待されます。一方で、アノテーションの主観性を克服するためのアノテーション標準化や大規模・多様なデータセットの整備も重要な課題です。
まとめ
和音認識は音楽理論、聴覚訓練、信号処理、機械学習が交差する領域です。シンプルなクロマベースの手法から最先端の深層学習モデルまで選択肢は多く、目的に応じた設計と評価が鍵となります。実務ではラベルセットの設計、前処理の工夫、時系列モデルの導入、そしてユーザー体験を意識した結果表現が重要です。
エバープレイの中古レコード通販ショップ
エバープレイでは中古レコードのオンライン販売を行っております。
是非一度ご覧ください。

また、レコードの宅配買取も行っております。
ダンボールにレコードを詰めて宅配業者を待つだけで簡単にレコードが売れちゃいます。
是非ご利用ください。
https://everplay.jp/delivery
参考文献
- Isophonics(コード注釈データセット)
- McGill Billboard Dataset(Billboardデータセット)
- MIREX(Music Information Retrieval Evaluation eXchange)
- Chromagram(Wikipedia)
- Constant-Q Transform(Wikipedia)
- Chord (music)(Wikipedia:和音の基礎)
- RWC(Real World Computing)データベース


