How to?

285-3

Jun 5, 2026
技术学习285
4 Minutes
768 Words

Lec 12: VI in RL

  1. 提出了 Control as Inference [skip]

Lec 13: Control as Inference

  1. Soft Q-learning: 普通 DQN 的 V = max_(a') Q, action 取 Q 最大的. Soft Q-learning 的 V = softmax(Q)(所有动作加权求和), pi(a|s) = e^(Q - V).
  2. SAC: 一种实用的 off-policy AC.
    1
    普通 AC
    2
    y = r + gamma * V(s_next) * (1 - done)
    3
    actor_loss = -log_pi(a | s) * detach(y - V(s))
    4
    5
    Soft AC:损失中的 Q(s, a_pi) 似乎来自 q-learning,而 log_pi 项策略熵 loss(鼓励策略不要过早变得确定)
    6
    y = r + gamma * (Q(s_next, a_next) - alpha * log_pi(a_next | s_next)) * (1 - done)
    7
    actor_loss = -mean(Q(s, a_pi) - alpha * log_pi(a_pi | s))
  3. [skip]

Lec 14 LLM RL

  1. IRL: 有的奖励规则没法手写,IRL 从人类专家的轨迹中最大似然拟合奖励函数 ψ.
  2. LLM: 预训练 + SFT + RLHF(human feedback).
    1. 奖励来源 1: 验证器奖励(deepseek R1),对每个思考步骤打分
    2. 奖励来源 2: 人类偏好奖励,生成多条问答让人类排名,不用写具体分数.
  3. LLM 上的 RL:
    1. PPO (importance clip + KL)
    2. GAE (回答结束再给奖励太稀疏,用 critic V 预判当前 token 的 advantage)
    3. GRPO(Gruop Relative): 没有 critic. 同一个 prompt 让模型生成 N 条回答,拿同组回答平均分作为基线,advantage = 单条回答得分 - 平均分
  4. RLHF 三步:
    1. SFT 得到可用模型.
    2. 训练 reward model: 同一个 prompt 让模型生成 N 条回答,让人类排名,用这些分数训练 reward model.
    3. PPO 训练,RM 自动打分当奖励,全程 KL 避免偏移 SFT 模型太多.

Lec 15 Model-based RL

  1. 并没有让环境模型在策略训练中传播梯度,而是单纯作为模拟器只用. 收集数据集 D = {s, a, s'},学习 f: (s, a) -> s'. BUG: distribution shift,即固定环境模型后,策略更新导致进入环境模型从未见过的状态,获得异常高分.
  2. 即使迭代训练环境 -> 策略 -> 环境 -> 策略也没有什么用,加 KL 散度 loss 还可以。也可以使用悲观约束之 bootstrap 集成网络:同样数据集,随机初始化权重训练 N < 10 个网络,如果预测结果分歧大就认为不确定性高,压低预估奖励,从而让 policy 主动避开未知区域。其实这是贝叶斯的粗糙近似.

Lec 16 Model-based RL 2

  1. 用环境模型直接作为 policy: 如果有一个模型能够预测动作的奖励,那么我们实际上可以在模型里尝试很多动作序列,选一个看起来最好的. 我们可以一次生成 N 个整条轨迹然后选最好的,但为了提高效率可以使用 CEM(Cross Entropy Method) 生成较短的轨迹,然后筛选较好的继续生成较短轨迹.
  2. 用环境模型训练 policy,代替物理世界. 但如果模拟很多步,会累积误差: 模型预测有误差,基于误差继续预测,导致累积 reward 误差正比于步数的平方 (𝜀𝐻2).
  3. sergey 告诉你,我们当然可以在 latent space 中预测 latent state,如果需要可以解码还原图像和奖励.
Article title:285-3
Article author:Julyfun
Release time:Jun 5, 2026
Copyright 2026
Sitemap