2-多臂老虎机

符号

多臂老虎机是无状态的强化学习，即与环境交互不会改变环境。在下述算法里，每个老虎机的奖励服从伯努利分布，即以的概率获得

以的概率随机探索一个。结果由于随机的部分，懊悔是线性增长的。

测试时（老虎机个数），结果累计懊悔是形式增长的。

用到了霍夫丁不等式。每一时刻设一个概率。对于每个动作算出一个 s.t. ，根据霍夫丁不等式必有: 至少以概率成立，称不等式右边为期望奖励上界（其实是大概率上界）。当增大时该可能性极大。

实操时, ，每次选择其中为控制不确定性比重的系数。ipynb 中

累计懊悔也是形式:

若拉杆次奖励为，次奖励为，则大胆假设拉杆的奖励概率（注意奖励概率为，每次要么得要么得）的概率分布为

那么每步怎么做决策呢？我们已经大胆假设了所有拉杆的奖励的期望的分布，那么就直接对所有拉杆进行一次分布上的采样。拉动采样最大的那个