- 占用度量(occupancy measure): 衡量采样到的一个具体的状态动作对 (state-action pair) 的概率分布
- 一个策略的价值就是一个占用度量下对应奖励的期望,寻找最优策略就是寻找最优占用度量
- 有监督学习(d2l)修改目标函数而数据分布不变,强化学习修改数据分布(改变策略来调整智能体与环境交互数据的分布)而目标奖励函数不变
Article title:1-概述
Article author:Julyfun
Release time:Aug 19, 2024
Original link:https://how-to.fun/blog/notes/julyfun/技术学习/hrl/1-概述
Copyright 2025
Sitemap