4-动态规划算法

策略评估

用于求解最优策略。

根据易证明的策略提升定理（到了下一步以后直接一直采用原策略，会获得一个期望，其不会更劣），评估策略后，策略改为每一状态贪心选择最优的，策略就会在每个状态更优。

策略提升就是反复贪心（提升）+ 重新迭代评估，直到策略不变。

上述方法是迭代评估 + 一轮提升，太慢。现在改为一轮评估 + 一轮提升。迭代过程中不维护，只维护状态价值函数。

done.