策略评估
-
已知策略 ,状态转移函数 和奖励函数也已知,求状态价值函数 (一个期望)
-
初始 任选,比如所有
-
建立方程 (使用贝尔曼期望方程)
- 这不就是带概率和 的一个模拟么
-
迭代直到 ,可以证明会收敛
策略提升
用于求解最优策略。
根据易证明的策略提升定理(到了下一步以后直接一直采用原策略,会获得一个期望,其不会更劣),评估 策略后,策略改为每一状态贪心选择最优的 ,策略就会在每个状态更优。
策略提升就是反复贪心(提升)+ 重新迭代评估,直到策略不变。
价值迭代
上述方法是迭代评估 + 一轮提升,太慢。现在改为一轮评估 + 一轮提升。迭代过程中不维护 ,只维护状态价值函数。
done.