14 SAC

  • DDPG 不是很稳定.
  • 【最大熵强化学习】
    • 为了防止陷入局部最优解,将策略的分布熵加入到 loss
    • image.png
  • [undone]