Masked Language Model(マスクド言語モデル)完全ガイド:仕組み・実装・応用・最新動向

概要 — Masked Language Modelとは何か

Masked Language Model(以下MLM、マスクド言語モデル)は、文中の一部のトークン(単語やサブワード)をマスクし、そのマスクされた位置の正しいトークンを予測する自己教師あり学習の枠組みです。人間のクロス(cloze)テストに似たタスクであり、周辺の文脈を使って欠損部分を復元することで、モデルに強い文脈理解能力を習得させます。近年の自然言語処理(NLP)における事前学習の主流の一つであり、代表例としてBERTが広く知られています。

学習の仕組みと目的関数

MLMは以下のように機能します。まずトークナイズした文のうちランダムに一定割合(典型的には15%)のトークンを選びます。選ばれたトークン群の取り扱い方はモデル設計によって異なりますが、BERTの標準的な手法では次の通りです。

  • 選ばれたトークンの80%は特殊なマスクトークン(例 '[MASK]')に置き換える。
  • 選ばれたトークンの10%は元のトークンのままにする(モデルに過度な依存を防ぐため)。
  • 残りの10%は語彙からランダムなトークンに置き換える。

モデルはマスクされた位置について、語彙全体に対する確率分布を出力し、正解トークンのクロスエントロピー損失で学習します。これにより、各トークンに対して両側の文脈(双方向)を取り入れた表現を学べる点がMLMの強みです。

代表的なモデルとMLMのバリエーション

  • BERT(Devlin et al., 2018): MLMをメインの事前学習タスクとして導入し、双方向のTransformerエンコーダを用いる。次文予測(NSP)タスクを併用していたが、その有用性は議論されている。
  • RoBERTa(Liu et al., 2019): BERTの改良版で、NSPを削除、学習データとバッチサイズを増やし、動的マスキングを採用することで性能向上を示した。
  • ALBERT(Lan et al., 2020): パラメータ共有とファクター化埋め込みを導入してモデルサイズ対性能のコストを改善。MLMに加え、文間関係の学習の改良を図った。
  • SpanBERT(Joshi et al., 2020): 単語トークン単位ではなく連続スパン(句)をマスクして予測することで、名詞句などの表現学習を強化。
  • XLNet(Yang et al., 2019): 完全なMLMではなく、順序の組合せを学習するPermutation Language Modelingを提案し、双方向の情報を捉えつつ自己回帰的スキームを利用する点が特徴。
  • ELECTRA(Clark et al., 2020): 直接的なマスク復元ではなく、生成器(generator)で候補トークンを置換し、識別器(discriminator)がそれが置換されたか否かを判定するタスク(replaced token detection)で効率的に学習する。

トークナイゼーションとマスク戦略の重要性

MLMの効果はトークナイゼーション(WordPiece、BPEなど)とマスクの方式に強く依存します。サブワード単位でマスクすると、語の一部分だけがマスクされて学習が難しくなることがあります。これに対し、whole word masking(単語全体のマスク)やspan masking(連続したスパンのマスク)は語レベルやフレーズレベルの意味連関を学習するのに有効です。

またマスクの生成は静的(学習前に決める)と動的(各エポックでランダムに生成する)に分かれ、RoBERTaなどは動的マスクを採用して多様なコンテキストを学習させています。

MLMの利点

  • 双方向コンテキストの利用: 左右の文脈を同時に参照できるため、文脈理解や文脈依存の意味表現が優れる。
  • 事前学習→微調整のパラダイムに最適: 少数のタスク固有ヘッドで多様な下流タスクに適用可能。
  • 高性能な転移学習: QAや自然言語推論、文書分類など多くのタスクで強いベースラインを提供。

MLMの欠点・課題

  • [MASK]トークンの存在問題: 実際の下流タスクには[MA SK]が出現しないため、事前学習と微調整の分布ずれが発生する(BERTはこの問題のために一部トークンをそのまま用いる工夫を行った)。
  • 計算効率: マスクされた位置に対して語彙全体でソフトマックスを計算するため、語彙サイズが大きいと計算コストが大きい。ELECTRAのような代替手法はこの点を改善する。
  • 連続生成に不向き: MLMは欠損復元に向いているが、文章生成(シーケンス生成)では自己回帰モデル(GPT系列)の方が自然。
  • 長距離依存・長文スケーリング: トランスフォーマーの計算特性により長文への拡張やコスト削減が課題。

評価指標とベンチマーク

MLMベースのモデルは、GLUEやSuperGLUE、SQuAD、RACEなどのベンチマークで評価されます。これらは分類、推論、質問応答、読解など多様な能力を測るもので、事前学習の進化がこれらのタスクでの性能向上につながってきました。ただし、これらベンチマークだけではモデルの健全性や偏り、公平性などの評価は不十分であるため、エラー解析やデータセット固有のバイアス検査が重要です。

実装上の注意点と最適化手法

  • 初期データセットとコーパスの選定: 一般言語モデルかドメイン特化モデルかで収集するコーパスを変える(医療、法務、金融など)。
  • ハイパーパラメータ: マスク率、学習率、バッチサイズ、学習ステップ数は結果に大きく影響。大規模事前学習は大バッチで安定しやすいが計算資源が必要。
  • 混合精度(FP16)や勾配蓄積を用いて大規模学習を効率化する。
  • 連続学習・ドメイン適応: 既存の事前学習済みモデルに対して追加で同分野のデータで続き学習(continued pretraining)を行うと効果的な場合がある。
  • 語彙設計: サブワード化の粒度(語彙サイズ)により未知語処理と表現能力のトレードオフが生じる。

実用上の応用例

  • 文書分類、感情分析、意図分類
  • 質問応答(SQuAD等)や情報抽出、固有表現抽出
  • 文書類似度、検索の前処理(検索クエリのエンベディング生成など)
  • 意味的な文章補完や修正の補助(生成は限定的)
  • 下流タスクの初期表現としてのファインチューニング

MLMと他アプローチの比較

自己回帰モデル(例: GPT系列)は生成タスクに強く、文の先頭から順に予測していく。一方MLMは双方向文脈を活かして理解タスクに強い。ELECTRAのような手法はMLMの代替としてサンプル効率と計算効率を改善し、同等またはそれ以上の下流性能をより短い学習時間で達成する例が示されています。Permutation LM(XLNet)は順序の入れ替えを用いて双方向情報を得ようとするアプローチでしたが、実装複雑性や計算コストの面でトレードオフがあります。

最新動向と今後の研究課題

近年の研究は以下の方向に集中しています。

  • 効率化: 長文対応や稀な語彙処理、計算コスト削減(Sparse attention、低ランク分解、蒸留など)。
  • マルチモーダル化: 画像や音声と組み合わせたマスクタスク(例: マスクされた領域の視覚特徴予測)への拡張。
  • スパン・構造情報の活用: SpanBERTのように句単位のマスクで意味的連関を学習する研究。
  • 生成と理解の統合: 理解に強いモデルと生成に強いモデルのベストミックスやハイブリッド学習。
  • 公正性・堅牢性: データバイアスや対抗例に対する頑健性の評価と改善。

まとめ

Masked Language Modelは、双方向文脈を用いた強力な事前学習手法としてNLPの中心を占めています。BERTを始めとする多くのモデルは、この枠組みを基礎にして発展してきました。利点として高い下流タスク性能や汎用性が挙げられますが、[MASK]トークンの存在による分布ずれや計算コスト、生成性能の限界など課題も存在します。近年はELECTRAやSpanBERTのような改良、効率化やマルチモーダル化など多方面の研究が進展しており、実務での適用にあたってはタスク特性とリソースを考慮したモデル選択と最適化が重要です。

参考文献