2026 RL answer these questions one by one

sheriyuo @zhihu 由于见到了拿到 PhD offer 但直接春招上岸大包的例子，本人也在想是否不登校了早点套现。于是这个合集蒸馏了知乎上所有和 RL 相关的面经，加上本人的一些最新讨论见解，整理出了最有深度的 35 道题作为合集，也算是造了个 benchmark 注意： 1.这里的问题没有严格区分 LLM RL 和 Agentic RL，但是一部分问题下 Agent 场景会有不同 2.几乎所有问题可延伸 / 追问的空间都相当大，此处不提供参考答案，使用 LLM 请反复交互并打开联网搜索 3.现在的 RL 招人需求就是尽可能全栈，不存在你做算法就不问 Infra 的情况，相反也如此 4.这里没有收集 Data 相关的题目，因为几乎没法背，全靠你的相关经历 5.切记背八股 / 面经不一定有用，打铁还需自身硬

算法部分 1.为什么要用 Actor-Critic 而不是纯 Critic？ 2.KL 散度和交叉熵、MLE 的关系？ 3.不同 RL 场景应该如何设计 Reward？ 4.如何理解 RL 中的 importance sampling / rejection sampling 等 monte carlo 方法？ 5.PPO / GRPO 的 advantage 是怎么算的，为什么要减去 baseline，这里一定要除以 std 吗？ 6.RL training 和 test-time scaling 各自是如何 explore 的？ 7.PPO 是如何 clip 的，为什么要取 min，不 clip 会怎么样，CISPO 是怎么做的 8.GRPO 为什么加上 KL 散度，KL 散度怎么计算，为什么 DAPO、GSPO 又去掉了 KL 散度？ 9.在 LLM 训练时，如果不小心多 All Reduce 了几次 loss，会发生什么？ 10.DPO 的 reward 是什么，会不会 reward hacking，如何解决？ 11.有哪些解决 MoE 训推不一致问题的算法，各自是什么原理？ 12.RL 训练时，group size / learning rate / ppo epoch / generation length 如何设置？ 13.相比 GRPO，Dr.GRPO / DAPO / GSPO / CISPO / SAPO / DPPO / MaxRL / SimKO 是如何改进的，各自又有什么缺点？ 14.TRPO / DPPO / AReaL 是如何用 trust region 约束 RL objective 的 15.RL 能否拓展 LLM 的能力边界？ 16.结合 ProRL 等工作，谈谈如何 scale RL 训练边界？ 17.OPD 相比于传统 RL / SFT 的改进，有哪些 OPD 的应用？ 18.LLM 推理能力是在哪一个训练阶段产生的？ 19.DeepSeek R1 到 V3.2 / V4，RL 部分有哪些改进，MoE RL 有什么不同？

Infra 部分 1.不考虑 cpu offload，GRPO 训练时显存里有几个模型，考虑了能省多少显存？ 2.分布式推理：KV cache 传输优化、多卡通信优化策略 3.INT8 与 FP8 优劣对比，训推分别用什么精度 4.RL rollout 中的长尾问题是什么，有哪些解决方案？ 5.continuous batching 在 RL 训练时会有什么问题，vLLM 和 SGLang 的区别？ 6.vLLM / SGLang 怎么看利用率，KV cache 在训练里的利用率怎么看？ 7.多机多卡 RL 训练时如何实现反向传播？ 8.RL 训练有哪些异步框架，解决了同步训练的什么问题？ 9.AReaL 或者其他 partially rollout 框架，在 rollout 时，会不会保存之前 policy 的 KV cache？ 10.MoE 的 EP 对 throughput 的影响 11.Long context 场景下的 compute-communication overlap，megatron 和 fsdp 各自的 parallelism 12.确定性模式怎么开，什么是 batch invariance，是什么导致的，有没有 atom add，atom add 能解决吗？ 13.AReaL 和 slime 对 RL rollout bottleneck 的理解有什么不同？ 14.full async staleness 怎么看，训练时大概是多少？ 15.slime 里 data 怎么流，megatron 怎么结合，loss 怎么算？ 16.VeRL / TRL / Unsloth / AReaL / slime 你会选哪个？