how to

RL 285

Jul 1, 2024
notesjulyfun2407
3 Minutes
474 Words

https://rail.eecs.berkeley.edu/deeprlcourse-fa23/

符号

  • 𝐽(𝜃): 策略的累积奖励的期望,需要最大化

  • 顺序: 𝑠1𝑎1𝑠2

  • 𝜏: 轨迹,表示所有 𝑠,𝑎

  • 𝜋(𝑎|𝑠):状态 𝑠 下采取 𝑎 的概率

  • 𝑉𝜋(𝑠)𝔼𝜋[𝐺𝑡|𝑆𝑡=𝑠] 状态价值函数 state-value function,即还不确定 𝑎

  • 𝑄𝜋(𝑠,𝑎)=𝔼𝜋[𝐺𝑡|𝑆𝑡=𝑠,𝐴𝑡=𝑎] 动作价值函数 action-value function,即确定了 𝑎

    • 𝑉𝜋(𝑠)=𝑎𝐴𝜋(𝑎|𝑠)𝑄𝜋(𝑠,𝑎)
    • 𝑄𝜋(𝑠,𝑎)=𝑟(𝑠,𝑎)+𝛾𝑠𝑆𝑃(𝑠|𝑠,𝑎)𝑉𝜋(𝑠)
    • 𝑠𝜋𝑎𝑖𝑃𝑠

强化学习类型

  • Policy Gradient: 求 𝔼[𝑟]𝜃 的导数.
    • 训练:
      • Actor: 输入 [机械臂状态,观测]
      • 输出 [动作] 或者 [动作的概率分布]
    • 推理: 一样
  • Value Based (DQN): 直接训练一个 Q / V,取最大值对应的动作索引 (no explicit policy)
  • Actor-Critic: 有 A 有 Q
  • Model-based: 有模型自行估计 𝑠 经过 𝑎 如何转移 ( learn 𝑝(𝑠𝑡+1|𝑠𝑡,𝑎𝑡) )

On-off policy

  • off-policy: able to improve the policy without generating new samples from that policy

  • on-policy: any time the policy is changed (even a little bit) we need to generate new samples.

  • (and there is offline-RL)

Lec5 Policy Gradients

  • https://rail.eecs.berkeley.edu/deeprlcourse-fa23/deeprlcourse-fa23/static/slides/lec-5.pdf
  • default
    • Maximum likehood 仅仅让 𝜃 朝着“这批动作出现概率最大”的方向演进.
  • default
    • 问题:奖励方差大,训练效率低下。好轨迹梯度可能为 0(累积奖励 0),有效奖励信号丢失.
  • 换种形式: reward to go:
    • default
  • 等等先换一个话题,我们求一个 baseline 𝑏 并改写奖励为 default ,目的是使梯度方差最小。推导出最优的 𝑏 为:
    • default
    • 其中: default
  • 结合以上两个优化,得到:
  • default

为什么 PG 必须是 on-policy

上述公式是对 𝜃 求导,𝜃 必须是最新的,求的梯度才有意义。导致训练效率很低. 当然你可以多采样几次,相当于 batch 大很多.

importance sampling

  • 这个公式就是 IS: 𝐸𝑥𝑝(𝑥)[𝑓(𝑥)]=𝐸𝑥𝑞(𝑥)[𝑝(𝑥)𝑞(𝑥)𝑓(𝑥)]
  • default
  • The Off-policy policy gradient: 这张图简单易懂:
  • default
Article title:RL 285
Article author:Julyfun
Release time:Jul 1, 2024
Copyright 2026
Sitemap