Lec 12: VI in RL
- 提出了 Control as Inference [skip]
Lec 13: Control as Inference
- Soft Q-learning: 普通 DQN 的
V = max_(a') Q, action 取 Q 最大的. Soft Q-learning 的V = softmax(Q)(所有动作加权求和),pi(a|s) = e^(Q - V). - SAC: 一种实用的 off-policy AC.
1普通 AC:2y = r + gamma * V(s_next) * (1 - done)3actor_loss = -log_pi(a | s) * detach(y - V(s))45Soft AC:损失中的 Q(s, a_pi) 似乎来自 q-learning,而 log_pi 项策略熵 loss(鼓励策略不要过早变得确定)6y = r + gamma * (Q(s_next, a_next) - alpha * log_pi(a_next | s_next)) * (1 - done)7actor_loss = -mean(Q(s, a_pi) - alpha * log_pi(a_pi | s))
- [skip]
Lec 14 LLM RL
- IRL: 有的奖励规则没法手写,IRL 从人类专家的轨迹中最大似然拟合奖励函数 ψ.
- LLM: 预训练 + SFT + RLHF(human feedback).
- 奖励来源 1: 验证器奖励(deepseek R1),对每个思考步骤打分
- 奖励来源 2: 人类偏好奖励,生成多条问答让人类排名,不用写具体分数.
- LLM 上的 RL:
- PPO (importance clip + KL)
- GAE (回答结束再给奖励太稀疏,用 critic V 预判当前 token 的 advantage)
- GRPO(Gruop Relative): 没有 critic. 同一个 prompt 让模型生成 N 条回答,拿同组回答平均分作为基线,advantage = 单条回答得分 - 平均分
- RLHF 三步:
- SFT 得到可用模型.
- 训练 reward model: 同一个 prompt 让模型生成 N 条回答,让人类排名,用这些分数训练 reward model.
- PPO 训练,RM 自动打分当奖励,全程 KL 避免偏移 SFT 模型太多.
Lec 15 Model-based RL
- 并没有让环境模型在策略训练中传播梯度,而是单纯作为模拟器只用. 收集数据集
D = {s, a, s'},学习f: (s, a) -> s'. BUG: distribution shift,即固定环境模型后,策略更新导致进入环境模型从未见过的状态,获得异常高分. - 即使迭代训练环境 -> 策略 -> 环境 -> 策略也没有什么用,加 KL 散度 loss 还可以。也可以使用悲观约束之 bootstrap 集成网络:同样数据集,随机初始化权重训练 N < 10 个网络,如果预测结果分歧大就认为不确定性高,压低预估奖励,从而让 policy 主动避开未知区域。其实这是贝叶斯的粗糙近似.
Lec 16 Model-based RL 2
- 用环境模型直接作为 policy: 如果有一个模型能够预测动作的奖励,那么我们实际上可以在模型里尝试很多动作序列,选一个看起来最好的. 我们可以一次生成 N 个整条轨迹然后选最好的,但为了提高效率可以使用 CEM(Cross Entropy Method) 生成较短的轨迹,然后筛选较好的继续生成较短轨迹.
- 用环境模型训练 policy,代替物理世界. 但如果模拟很多步,会累积误差: 模型预测有误差,基于误差继续预测,导致累积 reward 误差正比于步数的平方 ().
- sergey 告诉你,我们当然可以在 latent space 中预测 latent state,如果需要可以解码还原图像和奖励.