14-SAC

Nov 16, 2024

notes julyfun 技术学习 hrl

1 Minutes

35 Words

DDPG 不是很稳定.
【最大熵强化学习】
- 为了防止陷入局部最优解，将策略的分布熵加入到 loss
[undone]

Article title：14-SAC

Article author：Julyfun

Release time：Nov 16, 2024

Original link：https://how-to.fun/blog/notes/julyfun/技术学习/hrl/14-sac

懒得换图标

Copyright 2025