オンポリシー学習とは何か?定義・代表アルゴリズム・オン対オフの違いと実践ガイド
オンポリシー学習とは — 定義と基本概念
オンポリシー学習(on-policy learning)は、強化学習(Reinforcement Learning, RL)の学習方法の一つで、「学習に使うデータ(経験)が常に現在学習中の方策(policy)に従って得られている」ことを特徴とします。つまり、エージェントが行動選択のために用いる方策πと、価値関数や方策そのものの更新に用いる行動データが同一の方策に基づいている場合を指します。
これに対して、オフポリシー学習(off-policy learning)は、学習に使うデータが別の振る舞い方策(behavior policy μ)から得られていても構わないという設定です。代表的な例として、オンポリシーのSARSAとオフポリシーのQ学習(Q-learning)が挙げられます。
なぜオンポリシーを使うのか — 長所と短所
- 長所
- 理論的に自然:収集したデータがそのまま現在の方策を反映するため、方策評価と改善の整合性を保ちやすい。
- 安定性が高い場合がある:方策に依存した更新は、特に方策勾配法などで理論的保証や収束性の解析がしやすい。
- 単純な実装:リプレイバッファの重要性修正などを考慮する必要がない。
- 短所
- サンプル効率が低い:収集したデータを方策が変われば再利用しづらく、同じ経験を何度も使って学習することが難しい。
- 分散(variance)が大きくなりやすい:特に方策勾配法では推定の分散が高く、学習が不安定になることがある。
- 実運用でのデータ活用が制限される:ログデータ(過去の行動記録)をそのまま利用して学習する用途には向かない。
代表的なオンポリシーアルゴリズム
- SARSA:状態価値Q(s,a)を現在の方策に従って得られた次の行動a'を使って更新する古典的なオンポリシーTD法(例:Q ← Q + α(r + γQ(s',a') − Q(s,a)))。
- オンポリシックなモンテカルロ制御:エピソード全体をサンプルして方策を評価・改善する。イプシロン・グリーディなどの探索戦略と組み合わせる。
- 方策勾配法(REINFORCE 等):方策πθのパラメータθを直接更新するモンテカルロ方策勾配。サンプルは常に現在の方策から取得する(オンポリシー)。
- アクタークリティック(A2C / A3C 等):方策(アクター)と価値関数(クリティック)を同時に学習する枠組みで、多くの実装はオンポリシーで動作する(A3Cは非同期に複数ワーカーで方策を更新するが、各ワーカーは自身の方策に基づくサンプルを用いる)。
- PPO(Proximal Policy Optimization):現在の方策で集めた軌道を用いて何回か最適化ステップを回す「オンポリシーに近い」手法。クリッピング等で更新の変動を抑え、実装上の安定性を高めた代表的なオンポリシー深層RLアルゴリズム。
オンポリシーとオフポリシーの技術的差異(要点)
- データ生成源:オンポリシーは現在の方策πでサンプルを生成、オフポリシーは別の方策μからのサンプルも利用可能。
- 重要度サンプリング:オフポリシーで現在の方策に合わせて期待値を推定する際に、重要度サンプリング(importance sampling)を用いて補正することがある。だが、重要度比は分散を増大させるため扱いが難しい。
- 経験の再利用(replay buffer):オフポリシー手法(例:DQN, DDPG, SAC)はリプレイバッファを用いて効率的に経験を再利用できる。一方オンポリシーは基本的に収集した軌道を直接更新に使い、方策が変わればその経験は尽きる。
方策勾配とオンポリシーの関係 — 理論的な利点
方策勾配法(policy gradient)は、方策πθのパラメータθを直接最適化する手法で、多くがオンポリシーで設計されています。理由は、方策の確率分布の下で得られたサンプルから期待勾配を正しく推定するには、そのサンプルが現在の方策に従っていることが望ましいためです(REINFORCEのようなモンテカルロ推定はこの典型)。オンポリシー方策勾配は理論的に「非バイアス」な勾配推定を与える一方、分散が大きいという問題があります。これを抑えるために、アクタークリティックやベースライン、Generalized Advantage Estimation(GAE)などの分散削減技術が用いられます。
実装上の注意点と現場での選択指針
- サンプル効率が重要な場合(例えば実ロボットや高コスト環境):オフポリシー手法やモデルベース手法が向くことが多い。
- 安定性と簡潔さ、実装のしやすさを重視する場合:オンポリシーのPPOやA2Cなどが好まれる。PPOはクリッピングや制約付きの目的関数により安定して動きやすい。
- 継続学習やログデータの活用が目的:オフポリシーのアプローチ(重要度サンプリングや補正を含む)が必要になる。
- 並列化:オンポリシーでは複数のワーカーで同時にデータを集めて平均化する手法(A3Cの考え方)が有効で、サンプル収集の高速化に寄与する。
実務・研究での応用例
- ゲームやシミュレーション環境での探索的な研究開発:方策の探索と安定性が重要なため、PPOやA2Cがよく使われる。
- ロボティクスのオンライン制御:現場でリアルタイムに方策を更新する設計ではオンポリシー手法が採られることがあるが、試行回数の制限があるため慎重な設計が必要。
- 研究実験:方策勾配の性質を調べたり、GAEやバッチサイズ・学習率等のハイパーパラメータ感度解析を行う際にオンポリシー手法が使われる。
オンポリシー手法の発展とハイブリッド化
実務的にはオンポリシーとオフポリシーの長所を組み合わせるハイブリッドなアプローチも増えています。たとえば、PPOのように「オンポリシーでデータを集めつつ、収集したバッチを複数エポックで回して効率を改善する」手法は、完全なオンポリシーの枠組みにいながらデータ効率を改善する工夫です。また、重要度サンプリングや経験再利用の制御を導入してオンポリシーの利点を損なわずにオフポリシー的な効率化を図る研究も進んでいます。
まとめ
オンポリシー学習は「現在の方策が生成したデータのみを用いて学習する」枠組みで、方策勾配法、SARSA、A2C/A3C、PPOなどの多くの重要なアルゴリズムがここに属します。サンプル効率の面ではオフポリシーに劣ることが多い一方、理論的整合性や実装の単純さ、学習の安定性という利点があります。用途に応じてオンポリシー/オフポリシーを使い分けるか、両者の利点を組み合わせたハイブリッド手法を採るかを検討するのが現実的です。
参考文献
- Richard S. Sutton and Andrew G. Barto, "Reinforcement Learning: An Introduction" (2nd edition) — Chapter on On-policy and Off-policy methods
- Sutton & Barto PDF(オンライン版)
- John Schulman et al., "Trust Region Policy Optimization"(TRPO)
- John Schulman et al., "Proximal Policy Optimization Algorithms"(PPO)
- Volodymyr Mnih et al., "Asynchronous Methods for Deep Reinforcement Learning"(A3C)
- Sutton et al., "Policy Gradient Methods for Reinforcement Learning with Function Approximation"(1999/2000)
- OpenAI Spinning Up — 強化学習の入門資料(実装やアルゴリズムの説明が充実)


