マスク付き言語モデル(MLM)の基礎から最新動向まで:BERT系の仕組みと実務応用

概要 — マスク付き言語モデルとは

マスク付き言語モデル(Masked Language Model, MLM)とは、文章内の一部トークン(語やサブワード)を意図的に「マスク(隠す)」し、その隠されたトークンを前後の文脈から推定することを学習目標とする言語モデルの一群を指します。特にTransformerのエンコーダ構造を用いた双方向(bidirectional)表現学習の基礎として広く普及しました。MLMはBERT(Bidirectional Encoder Representations from Transformers、2018年)が代表的で、以降多くの派生モデルが提案されています。

基本的な仕組み

MLMの基本的な学習手順は次の通りです。

  • 入力文をトークン化する(サブワード単位の分割が多い)。
  • ランダムに選んだトークンの一部(BERTでは約15%が標準)を特殊トークン(例: [MASK])で置換する。ある割合は元のトークンのままにしたり、ランダムトークンに置換したりする工夫も行う。
  • モデル(主にTransformerのエンコーダ)はマスクされた位置のトークンを、周辺の左右両側の文脈情報を使って予測するように学習する。

この「左右両方向の文脈を同時に参照できる」点が、従来の単方向(左→右)な自己回帰型モデルと大きく異なります。MLMにより得られる表現は、下流タスク(分類、固有表現抽出、質問応答など)へのファインチューニングに適しています。

代表的なモデルとその改良点

  • BERT — MLMを中心とした最初の代表例。15%のトークンをマスクし、Masked Language Modeling(MLM)とNext Sentence Prediction(NSP)を同時に学習する構成が提案されました。BERTは双方向の文脈表現を得られる点で画期的でした。
  • RoBERTa — BERTの学習手法を見直して改良。大規模データ、長時間の学習、バッチサイズ拡大、動的マスキング(毎イテレーションでマスク箇所を変える)、およびNSPの廃止などを行い性能を向上させました。
  • ALBERT — パラメータ共有やembedding次元の分解(factorized embedding)などでモデル効率を改善しつつ、代わりにSentence-Order Prediction(SOP)といったタスクで文間関係を学習させる工夫を行いました。
  • ELECTRA — MLMとは異なる「Replaced Token Detection(置換トークン検出、RTD)」という目標を提案。小さな生成器(generator)で一部トークンを別の候補に置き換え、識別器(discriminator)が各トークンが本物か置換かを判別するよう学習。計算効率当たりの性能が高いのが特徴です。
  • 多言語・他の系譜 — mBERT、XLM-Rなどは複数言語を同時に扱うMLM系のモデルで、クロスリンガルな転移学習が可能です。

マスク戦略とトークン化

マスクのやり方やトークン化方針は性能に影響します。代表的な工夫:

  • マスク率(一般に15%が標準だが、タスクやデータにより調整)
  • 動的マスキング:事前に固定したマスク箇所を使うのではなく、トレーニング時に毎回ランダムにマスクすることで汎化を向上
  • Whole Word Masking(単語単位で丸ごとマスク):語をサブワードに分解するトークナイザを使う場合に、同一語のサブワードをまとめてマスクすることで予測難易度を調整
  • サブワードトークン化(WordPiece、BPE、SentencePieceなど):未知語や語彙サイズの削減に有効で、MLMでも標準的に用いられる

MLMと自己回帰モデル(GPT等)の違い

  • MLM(エンコーダ中心):文脈の両側を同時に参照してトークンを予測(bidirectional)。下流タスクでの表現学習に強い。
  • 自己回帰モデル(例:GPT):左から右への生成に適し、条件付きテキスト生成が得意。将来的なトークンのみを予測する単方向の学習。
  • 生成能力の差:MLM(エンコーダ)はそのままでは逐次生成に向かない。マスクを埋める種のインファリングや、デコーダを組み合わせたseq2seq(T5、BART)により生成タスクにも対応。

学習上の注意点と課題

MLMにはいくつかの実務的・理論的課題が存在します:

  • プレトレーニングとファインチューニングの不整合:BERTは学習時に[MASK]トークンを使うがファインチューニング時には使わない、というギャップがあり性能に影響することが知られています。RoBERTaやELECTRAなどはこの点に配慮した改良を行っています。
  • [MASK]トークンへの過適合:学習中に頻出する特殊トークンに過度に依存する可能性。動的マスキングや一部をランダム置換する技術で緩和されます。
  • 評価指標の選択:MLMでは生成モデルで使うperplexity(尤度)よりも、Masked Token Accuracyや下流タスク(GLUE、SQuADなど)のスコアが実用的指標となることが多いです。
  • ドメイン適応の必要性:専門分野の語彙や構文特徴は一般コーパスでの事前学習だけでは十分に学べないため、追加のドメイン適応(さらにプレトレーニングするなど)が有効です。

主な応用例

  • テキスト分類(感情分析、意図分類など)
  • 固有表現抽出(NER)や品詞タグ付けなどの系列ラベリング
  • 質問応答(抽出型QA):BERT系モデルはSQuAD等で高い性能を示しました
  • 文と文の類似度判定や文章検索(情報検索)での埋め込み取得
  • マスク穴埋めを用いた語彙補完や簡易な文修正支援

ベンチマークと評価

MLM系モデルの有効性は、GLUEやSuperGLUEといった総合的な自然言語理解ベンチマークや、SQuADのような質問応答タスクで示されることが多いです。加えて、Masked Token Accuracyや下流タスクにおける微調整後のスコアが実用的評価指標になります。ELECTRAは同等の計算資源でより高い下流タスク性能を達成する例として注目されました。

最近の動向

  • デノイジング型seq2seq(BART、T5など):マスク/スパンマスキングや再構築の目的を持ち、生成と理解の両方に強い。
  • ELECTRAのような効率的学習法の普及:計算資源あたりの性能向上を目指す研究が活発。
  • 巨大モデル化と蒸留:大規模プレトレーニング後に軽量モデルへ知識蒸留して実運用性を高めるアプローチ。
  • 多言語・クロスリンガル学習:mBERTやXLM-Rのように多言語で一元的に学習し、低資源言語に転移する試み。

実運用上の注意点

  • 推論時のレイテンシとメモリ:TransformerベースのMLMは計算資源を多く消費するため、量子化、蒸留、オフロードなどの最適化が必要。
  • データの偏りと倫理的配慮:プレトレーニングデータの偏りが出力に影響するので、データ選定と評価が重要。
  • セキュリティ・プライバシー:学習データに個人情報が含まれるとモデルがそれを再生するリスクがあるため、データクレンジングや差分プライバシーの活用を検討。

まとめ

マスク付き言語モデルは、双方向の文脈情報を活用して高品質な文表現を学習する手法で、多くの自然言語処理タスクで標準的な基盤を提供してきました。BERTを契機にさまざまな改良(RoBERTa、ALBERT、ELECTRA等)が提案され、近年では生成能力や効率性を高める方向への発展が続いています。運用ではプレトレーニングとファインチューニングの不整合、推論効率、データ倫理などへの配慮が不可欠です。

参考文献