285-hw3 Dual Gradient Descent

[Gemini 3.1 Pro]

假设你开了一家送外卖的公司：

Actor（策略 θ）是老板：目标是“利润最大化”（最大化 Expected Return）。
约束条件是劳动法：规定员工的“综合幸福指数（Entropy 熵）”不能低于某个标准（ℋ_target）。

什么是“带约束的优化（Constrained Optimization）”？ 原问题是：老板 θ 要想尽一切办法赚钱，但前提是（subject to） 必须满足 ℋ(θ) ≥ ℋ_target。

如果直接求解这个“硬性规定”，数学上非常难。所以我们引入一个“监管部门（温度系数 α）”来把“硬约束”变成“软罚款/奖励”。这就是**拉格朗日乘子法（Lagrange Multipliers）**的核心思想。

2. 构建拉格朗日函数：把约束变成罚款/奖励

我们把目标和约束写在一起，构造成一个新的总目标 L：

总目标 L(θ, α) = 赚的钱 + α * (员工幸福指数 - 法定最低标准) 也就是：L(θ, α) = J(θ) + α * ( ℋ(θ) - ℋ_target )

这里的 α (温度) 就是“监管力度”（或者叫罚款汇率），它必须是非负数 (α ≥ 0)。

3. 极小极大博弈（The Min-Max Game / Dual Problem）

为了让这个机制完美运转，我们让老板（θ）和监管部门（α）玩一个双人游戏（这就叫对偶理论）：

老板（更新 θ，Primal update）：在当前的监管力度 α 下，努力**最大化（Maximize）**总目标 L。
监管部门（更新 α，Dual update）：努力**最小化（Minimize）**总目标 L。

为什么监管部门要“最小化” L ？这是整个对偶理论最精妙的地方！ 我们来看看监管部门（调整 α）的视角。L 的公式里，J(θ) 对 α 来说是常数，所以监管部门其实就是在最小化： α * ( ℋ(θ) - ℋ_target )

情况 A：老板违法了！幸福指数不达标（ℋ(θ) < ℋ_target） 括号里的值是负数。为了让这个整体结果越小越好，监管部门就会把 α 往死里调大（趋向 +∞）。 α 变大了，老板那边在最大化 L 时就会发现：“哇，罚款太重了，我必须赶紧提高幸福指数 ℋ(θ) 才能止损！”
情况 B：老板很良心！幸福指数超标了（ℋ(θ) > ℋ_target） 括号里的值是正数。为了让整体结果最小，监管部门就会把 α 降低，甚至降到 0。老板就会发现：“现在不仅没罚款，探索的奖励也变少了，我可以把更多精力放在纯粹赚钱（J(θ)）上！”

这就是对偶梯度下降（Dual Gradient Descent）！ 老板走一步（最大化更新 θ，对应 Actor/Critic Loss），监管部门走一步（最小化更新 α，对应 Alpha Loss）。两者交替进行，最后系统会自动锁定在一个恰好满足 ℋ(θ) = ℋ_target 的动态平衡上。