1 概述

  • 占用度量(occupancy measure): 衡量采样到的一个具体的状态动作对 (state-action pair) 的概率分布
  • 一个策略的价值就是一个占用度量下对应奖励的期望,寻找最优策略就是寻找最优占用度量
  • 有监督学习(d2l)修改目标函数而数据分布不变,强化学习修改数据分布(改变策略来调整智能体与环境交互数据的分布)而目标奖励函数不变