1-概述 - how to

占用度量(occupancy measure): 衡量采样到的一个具体的状态动作对 (state-action pair) 的概率分布
一个策略的价值就是一个占用度量下对应奖励的期望，寻找最优策略就是寻找最优占用度量
有监督学习（d2l）修改目标函数而数据分布不变，强化学习修改数据分布（改变策略来调整智能体与环境交互数据的分布）而目标奖励函数不变