【強化学習】OpenAI Gymで学ぶAIエージェントの自律学習（Q-LearningとDQN）

プログラミング

2026.04.16

AlphaGoが世界最強の囲碁棋士を打ち破り、自動運転車が人間よりも安全にハンドルを握る。これら全て、「教師あり学習」ではなく「強化学習（Reinforcement Learning / RL）」という全く別のパラダイムで産み出されたAIです。

本記事では、強化学習の中でも最も基本となる「Q-Learning」の概念から、それにDeep Learningを結合してブレイクスルーをもたらした「DQN（Deep Q-Network）」のアルゴリズムの仕組みを、Pythonのシミュレータ環境『OpenAI Gym』を用いて解説します。

1. 強化学習の基本：状態、行動、報酬

強化学習には教師データ（正解）が存在しません。代わりにAIエージェントが自らゲームの中でめちゃくちゃな行動（Action）を取り、もしスコアが上がれば「報酬（Reward）」を与えます。
AIの目的はたった一つ、「将来にわたって得られる報酬の合計値が最大になる行動ルール（方策：Policy）を見つけ出すこと」です。

import gym
import numpy as np
# 古典的な「倒立振子（カートの上に棒を立てる）ゲーム」環境の作成
env = gym.make('CartPole-v1')
# 初期状態の観測 (カートの位置、速度、棒の角度、角速度)
state = env.reset()
for time_step in range(100):
    env.render() # アニメーションとして描写
    
    # 実際はここでエージェントの推論に基づき行動（0:左へ移動, 1:右へ移動）を決めるが、
    # 例としてランダムな行動を取る
    action = env.action_space.sample()
    
    # 行動を実行し、次の状態、獲得した報酬、終了フラグ等を受け取る
    next_state, reward, done, info = env.step(action)
    
    if done:
        print(f"失敗してゲームオーバー。生存期間: {time_step}ステップ")
        break
        
env.close()

2. Q-Learning：Q値関数という「攻略本」

Q-Learningの考え方は非常にシンプルです。「現在の盤面（状態）において、それぞれのアクションを取った場合に将来どれだけのトータル報酬がもらえそうか」という期待値をまとめた「Q値テーブル」を作成します。
試行錯誤を何百万回と繰り返すことで「ある状態のときは、右に動いた方がトータルスコアが高い」という確率のテーブルが徐々に更新されていき、完璧な攻略本（Qテーブル）が完成します。

3. DQN（Deep Q-Network）の登場による革命

しかし、チェスやブロック崩しの画面（ピクセルレベルの状態）は「状態がまさに無限大に近い」ため、メモリ上に「Qテーブル」を用意することが不可能でした。
ここで2013年、DeepMind社は「Qテーブルが無理なら、『状態（画像）』を入力すると『各アクションのQ値』を出力してくれるディープニューラルネットワーク（CNN）を作に学習させればいい！」という大革命（DQN）を発表し、AIのパラダイムをひっくり返しました。

DQNでは、行動するたびに「状態遷移のメモリ（Replay Buffer）」を蓄積し、そこからランダムにミニバッチを取り出して「Qネットワーク」の重みを更新するという、教師あり学習の力業に強化学習を落とし込みました。

まとめ：AIはロボティクスの未来を拓く

現在、強化学習はDQNからさらにPPO（Proximal Policy Optimization）やSAC（Soft Actor-Critic）といったモダンなアルゴリズムへ進化し、実世界のロボット制御や高度なトレーディングボットのコアに組み込まれています。画像処理だけでなく、強化学習の技術も学んでおくとAIエンジニアとしての幅が爆発的に広がります。

リンク