how to

1-概述

Aug 19, 2024
notesjulyfun技术学习hrl
1 Minutes
126 Words
  • 占用度量(occupancy measure): 衡量采样到的一个具体的状态动作对 (state-action pair) 的概率分布
  • 一个策略的价值就是一个占用度量下对应奖励的期望,寻找最优策略就是寻找最优占用度量
  • 有监督学习(d2l)修改目标函数而数据分布不变,强化学习修改数据分布(改变策略来调整智能体与环境交互数据的分布)而目标奖励函数不变
Article title:1-概述
Article author:Julyfun
Release time:Aug 19, 2024
Copyright 2025
Sitemap