how to

14-SAC

Nov 16, 2024
notesjulyfun技术学习hrl
1 Minutes
35 Words
  • DDPG 不是很稳定.
  • 【最大熵强化学习】
    • 为了防止陷入局部最优解,将策略的分布熵加入到 loss
    • default
  • [undone]
Article title:14-SAC
Article author:Julyfun
Release time:Nov 16, 2024
Copyright 2025
Sitemap