2-多臂老虎机
Published at 2024-08-19
Last update over 365 days ago
Licensed under CC BY-NC-SA 4.0
notes
julyfun
技术学习
hrl
符号
: 动作集合 : 奖励概率分布,动作 对应一个奖励分布 - 对动作
,定义其期望奖励为 - 最优期望奖励
- 懊悔
: 对 的期望奖励估值
名称
- MAB: 多臂老虎机
- UCB: 上置信界法
问题表述
多臂老虎机是无状态的强化学习,即与环境交互不会改变环境。在下述算法里,每个老虎机的奖励服从伯努利分布,即以
贪心算法
以
随时间衰减的 贪心算法
测试时
上置信界算法
用到了霍夫丁不等式。每一时刻设一个概率
实操时,
累计懊悔也是
汤普森采样算法
若拉杆
那么每步怎么做决策呢?我们已经大胆假设了所有拉杆的奖励的期望的分布,那么就直接对所有拉杆进行一次