1-概述
Published at 2024-08-19
Last update over 365 days ago
Licensed under CC BY-NC-SA 4.0
notes
julyfun
技术学习
hrl
- 占用度量(occupancy measure): 衡量采样到的一个具体的状态动作对 (state-action pair) 的概率分布
- 一个策略的价值就是一个占用度量下对应奖励的期望,寻找最优策略就是寻找最优占用度量
- 有监督学习(d2l)修改目标函数而数据分布不变,强化学习修改数据分布(改变策略来调整智能体与环境交互数据的分布)而目标奖励函数不变