285-3 - How to?

Lec 12: VI in RL

提出了 Control as Inference [skip]

Lec 13: Control as Inference

Soft Q-learning: 普通 DQN 的 V = max_(a') Q, action 取 Q 最大的. Soft Q-learning 的 V = softmax(Q)（所有动作加权求和）, pi(a|s) = e^(Q - V).

SAC: 一种实用的 off-policy AC.

1
普通 AC, policy-gradient：
2
y = r + gamma * V(s_next) * (1 - done)
3
actor_loss = -log_pi(a | s) * detach(y - V(s))
4

5
Soft AC：损失中的 Q(s, a_pi) 似乎来自 q-learning，而 log_pi 项策略熵 loss（鼓励策略不要过早变得确定）
6
y = r + gamma * (Q(s_next, a_next) - alpha * log_pi(a_next | s_next)) * (1 - done)
7
actor_loss = -mean(Q(s, a_pi) - alpha * log_pi(a_pi | s))

[skip]

Lec 14 LLM RL

IRL: 有的奖励规则没法手写，IRL 从人类专家的轨迹中最大似然拟合奖励函数 ψ.
LLM: 预训练 + SFT + RLHF(human feedback).
1. 奖励来源 1: 验证器奖励(deepseek R1)，对每个思考步骤打分
2. 奖励来源 2: 人类偏好奖励，生成多条问答让人类排名，不用写具体分数.
LLM 上的 RL:
1. PPO (importance clip + KL)
2. GAE (回答结束再给奖励太稀疏，用 critic V 预判当前 token 的 advantage)
3. GRPO(Gruop Relative): 没有 critic. 同一个 prompt 让模型生成 N 条回答，拿同组回答平均分作为基线，advantage = 单条回答得分 - 平均分
RLHF 三步:
1. SFT 得到可用模型.
2. 训练 reward model: 同一个 prompt 让模型生成 N 条回答，让人类排名，用这些分数训练 reward model.
3. PPO 训练，RM 自动打分当奖励，全程 KL 避免偏移 SFT 模型太多.

Lec 15 Model-based RL

并没有让环境模型在策略训练中传播梯度，而是单纯作为模拟器只用. 收集数据集 D = {s, a, s'}，学习 f: (s, a) -> s'. BUG: distribution shift，即固定环境模型后，策略更新导致进入环境模型从未见过的状态，获得异常高分.
即使迭代训练环境 -> 策略 -> 环境 -> 策略也没有什么用，加 KL 散度 loss 还可以。也可以使用悲观约束之 bootstrap 集成网络：同样数据集，随机初始化权重训练 N < 10 个网络，如果预测结果分歧大就认为不确定性高，压低预估奖励，从而让 policy 主动避开未知区域。其实这是贝叶斯的粗糙近似.

Lec 16 Model-based RL 2

用环境模型直接作为 policy: 如果有一个模型能够预测动作的奖励，那么我们实际上可以在模型里尝试很多动作序列，选一个看起来最好的. 我们可以一次生成 N 个整条轨迹然后选最好的，但为了提高效率可以使用 CEM(Cross Entropy Method) 生成较短的轨迹，然后筛选较好的继续生成较短轨迹.
用环境模型训练 policy，代替物理世界. 但如果模拟很多步，会累积误差: 模型预测有误差，基于误差继续预测，导致累积 reward 误差正比于步数的平方 ().
sergey 告诉你，我们当然可以在 latent space 中预测 latent state，如果需要可以解码还原图像和奖励.