没时间看懂。重要小结: 梯度截断 ℎ𝑡=𝑓(𝑥𝑡,ℎ𝑡−1,𝑤ℎ) 𝑜𝑡=𝑔(ℎ𝑡,𝑤𝑜) 𝐿=1𝑇∑𝑇𝑡=1𝑙(𝑦𝑡,𝑜𝑡) 欲求 𝜕𝐿𝜕𝑤ℎ,链式法则展开为 ∑𝑇𝑡=1𝜕𝑙(𝑦𝑡,𝑜𝑡)𝜕𝑜𝑡∗𝜕𝑜𝑡𝜕ℎ𝑡∗𝜕ℎ𝑡𝜕𝑤ℎ 前两项好求,但第三项 ℎ𝑡 既依赖于 𝑤ℎ 又依赖于 ℎ𝑡−1,而后者又依赖于 𝑤ℎ,最终导出的梯度是一个带有求积的求和项,容易产生梯度爆炸 / 消失,故可在一定时间步后截断求和计算。 其他 说是 bptt 会在计算期间缓存中间值。