how to

2-多臂老虎机

Aug 19, 2024
notesjulyfun技术学习hrl
3 Minutes
563 Words

符号

  • 𝒜: 动作集合 : 奖励概率分布,动作 𝑎 对应一个奖励分布 (𝑟|𝑎)
  • 对动作 𝑎,定义其期望奖励为 𝑄(𝑎)
  • 最优期望奖励 𝑄=max𝑎𝒜𝑄(𝑎)
  • 懊悔 𝑅(𝑎)=𝑄𝑄(𝑎)
  • 𝑄hat: 对 𝑎 的期望奖励估值

名称

  • MAB: 多臂老虎机
  • UCB: 上置信界法

问题表述

多臂老虎机是无状态的强化学习,即与环境交互不会改变环境。在下述算法里,每个老虎机的奖励服从伯努利分布,即以 𝑝𝑖 的概率获得 1

𝑎𝑡={argmax𝑎𝒜𝑄hat(𝑎)采样概率1𝜀𝒜随机选择采样概率𝜀

𝜀 的概率随机探索一个。结果由于随机的部分,懊悔是线性增长的。

𝜀𝑡=1𝑡

测试时 𝐾=10(老虎机个数),结果累计懊悔是 ln 形式增长的。

default

上置信界算法

https://hrl.boyuai.com/chapter/1/%E5%A4%9A%E8%87%82%E8%80%81%E8%99%8E%E6%9C%BA/#25-%E4%B8%8A%E7%BD%AE%E4%BF%A1%E7%95%8C%E7%AE%97%E6%B3%95 中已经最小化讲清楚了。

用到了霍夫丁不等式。每一时刻设一个概率 𝑝=1𝑡。对于每个动作 𝑎 算出一个 𝑈hat𝑡(𝑎) s.t. 𝑝=𝑒2𝑁𝑡(𝑎)𝑈2𝑡(𝑎)(𝑈hat𝑡(𝑎)=log𝑝2𝑁𝑡(𝑎)),根据霍夫丁不等式必有: 𝑄𝑡(𝑎)<𝑄hat𝑡(𝑎)+𝑢 至少以 1𝑝 概率成立,称不等式右边为期望奖励上界(其实是大概率上界)。当 𝑡 增大时该可能性极大。

实操时, 𝑈hat𝑡(𝑎)=log𝑝2(𝑁𝑡(𝑎)+1),每次选择 𝑎=argmax𝑎𝒜𝑄hat(𝑎)+𝑐𝑈hat(𝑎) 其中 𝑐 为控制不确定性比重的系数。ipynb 中 𝑐=1

累计懊悔也是 ln 形式:

default

汤普森采样算法

若拉杆 𝑚1 次奖励为 1𝑚2 次奖励为 0 ,则大胆假设拉杆的奖励概率(注意奖励概率为 𝑝,每次要么得 1 要么得 0)的概率分布为 Β(𝑚1+1,𝑚2+1)

那么每步怎么做决策呢?我们已经大胆假设了所有拉杆的奖励的期望的分布,那么就直接对所有拉杆进行一次 Β 分布上的采样。拉动采样最大的那个

Article title:2-多臂老虎机
Article author:Julyfun
Release time:Aug 19, 2024
Copyright 2025
Sitemap