how to

12-PPO

Nov 16, 2024
notesjulyfun技术学习hrl
1 Minutes
93 Words

default

  • PPO 优化目标和 TRPO 相同,但求解没有那么多烦人步骤.
  • 【两种方法约束新解】
    • PPO-惩罚:将 KL 散度放进 loss,但是系数计算有门道
    • PPO-截断(效果更好):求解 $theta$ 参数时,新旧策略概率比直接截断
      • default

代码实践

  • 若动作连续,也可以输出均值和标准差.
Article title:12-PPO
Article author:Julyfun
Release time:Nov 16, 2024
Copyright 2025
Sitemap