調性判定のすべて:理論・実践・アルゴリズムで読み解くキー検出

はじめに — 調性判定とは何か

調性判定(キー検出、tonal/key detection)は、楽曲がどの調(キー)に属するかを決定する作業です。西洋音楽で言う長調・短調だけでなく、モード(ドリア、ミクソリディア等)や転調の有無、曖昧な調性感(モーダル混合や無調的要素)まで含めて考えることができます。音楽情報検索(MIR)や自動伴奏、楽曲解析、DJソフトやストリーミングサービスのタグ付けなど、実用面での要求は高く、ヒトの聴覚認知に基づく理論と機械学習的手法が交差する研究領域です。

調性の基本概念

  • トニック(Tonic): 調の中心となる音(キーの根音)。楽曲はトニックに帰着する傾向を持つ。

  • 主音階(Scale)とモード: 長調(メジャー)・短調(マイナー)や教会旋法などがあり、音階の構成が調性感を定義する。

  • 機能和声: 傾向的な和音進行(主和音、属和音など)が調性感の手がかりになる。

  • ピッチクラス: オクターブを超えた音高クラス(12個)にまとめて考えることで、調性の抽出に役立つ。

聴覚と認知に基づく理論的基盤

人間の調性感の認知についての古典的研究として、Carol Krumhanslらのトーンプロファイル(key profiles)があります。被験者に各音の重要度や安定度を評価させて得たプロファイルは、ある楽曲のピッチクラス分布と相関させることで調を推定できます。これがKrumhansl–Schmucklerアルゴリズムの基本原理です。

また、調性感は単純な音頻度だけでなく、和音の進行、メロディの重心、リズムや音色、演奏表現など多面的要素に依存します。故に完全な自動判定は難しく、ヒトが瞬時に行う高次の文脈把握(例:転調の認識)を模倣する必要があります。

アルゴリズム概観 — 代表的手法

  • ピッチクラスプロファイル(PCP)/クロマ特徴: 時間領域または周波数領域から12次元(または拡張)のクロマベクトルを作成し、曲全体または短窓ごとに集計してキー推定に使う。

  • Krumhansl–Schmuckler法: 楽曲のピッチクラス分布と既知のキー・プロファイル(長調/短調)とを相関して最も高い値を示すキーを選ぶ。単純だが有効。

  • テンポラルモデル(HMM等): 時間的な遷移(例えば転調)を取り扱うために隠れマルコフモデルで状態(キー)遷移をモデル化する。

  • 機械学習 / 深層学習: 特徴量(クロマ、スペクトログラム等)を用いたSVMやランダムフォレスト、近年はCNN/CRNNで生波形やスペクトログラムから直接キーを分類するアプローチが増加。大量データで高性能を発揮するが、解釈性に課題。

  • ハイブリッド手法: 認知理論に基づくプロファイルと機械学習を組み合わせて精度と頑健性を両立する試みが多い。

実装上のポイントと前処理

  • ピッチ抽出: 多声音楽では多値のピッチ検出(多声ピッチ推定)が必要。単純なFFTに頼ると和音の重なりで誤りが出るため、楽器の倍音やスペクトル包絡の補正を行う。

  • クロマ正規化: 音量やオクターブ分布の偏りを補正するために正規化を行う。例えばL1正規化や対数圧縮を用いる。

  • 時間的集約: 曲全体で判断するか、短窓で局所的に推定して統計的に決定するか。転調検出をするなら短窓+時系列モデルが必要。

  • テンポ・拍の影響: ビートごとの和音変化に注目してクロマを集計すると、リズムに潜む調性感をより正確に捉えやすい。

評価とデータセット

調性判定の評価にはMIREX(Music Information Retrieval Evaluation eXchange)のタスクや、Ground truthが付与されたデータセット(例えばBeatles、Isophonics、McKinneyなど)が使われます。評価指標としては単純な正解率の他に、モードの誤判定(長→短など)や五度圏上の近傍エラーを考慮した許容評価(fifth errorなど)も使われます。これにより、人間の感覚上の「近さ」を反映した評価が可能になります。

実務でよくある課題と対策

  • 転調: 楽曲中で調が変わる場合、全曲一つのキーを出すと間違いやすい。局所推定+HMMやViterbiによる最尤経路探索で転調点を検出する。

  • モーダル音楽・非調性音楽: ポップスやフォークでモードが明確な場合や、ジャズのモーダル即興、無調的要素がある現代音楽は既存のメジャー/マイナーモデルでは判定困難。モード識別用のプロファイルや教師データが必要。

  • 和音装飾・借用和音: クロマ分布が曖昧になるため、時間的文脈(和音進行)を加味する手法が有効。

  • ノイズ・音質変化: 音源が劣化している場合やリミックスがある場合は、前処理(ノイズフィルタ、EQ正規化)で改善できる。

人手による調性判定の手順(実践ガイド)

  1. 曲を通して聴き、メロディの中心音や終止感のある音をメモする。

  2. 主要なコード進行を把握する(I-V-I や ii-V-I などの機能を探す)。終止やカデンツがトニックの手がかりになる。

  3. モードや転調の疑いがある箇所を特定し、曲をセクションごとに分けて考える。

  4. メロディと和音の不一致(借用和音、モーダル混合)があるときは、支配的な素材(頻度・楽曲構造上の重要性)を重視する。

応用と今後の展望

キー検出の高精度化は、自動譜面生成、楽曲推薦(ハーモニックミックス)、リアルタイム伴奏システム、音楽教育アプリなど多様な応用を持ちます。近年は深層学習によるエンドツーエンド化や、表現性(転調やモード変化)を扱うための時系列生成モデルが注目されています。ただし、解釈性・公平性(ジャンルによる偏り)・データの多様性確保が課題です。

まとめ

調性判定は、音楽理論と認知心理学の知見を背景に、信号処理や機械学習を組み合わせて行われる複合的な問題です。単純な頻度ベースの手法でも多くの楽曲で有効ですが、転調やモーダル音楽、ジャズ的な和声処理など実務的な課題に対応するには、時系列モデルや学習ベースのアプローチ、そして良質なデータセットが必要です。実装時は前処理(クロマ正規化、ビート同期)と評価方法(許容誤差を含む指標)に注意することで実用的な精度向上が期待できます。

エバープレイの中古レコード通販ショップ

エバープレイでは中古レコードのオンライン販売を行っております。
是非一度ご覧ください。

エバープレイオンラインショップのバナー

また、レコードの宅配買取も行っております。
ダンボールにレコードを詰めて宅配業者を待つだけで簡単にレコードが売れちゃいます。
是非ご利用ください。
https://everplay.jp/delivery

参考文献