8.7.bptt

没时间看懂。重要小结:

梯度截断

欲求 ,链式法则展开为

前两项好求,但第三项 既依赖于 又依赖于 ,而后者又依赖于 ,最终导出的梯度是一个带有求积的求和项,容易产生梯度爆炸 / 消失,故可在一定时间步后截断求和计算。

其他

  • 说是 bptt 会在计算期间缓存中间值。