8.7.bptt Published at 2024-08-16 Licensed under CC BY-NC-SA 4.0 notesjulyfun技术学习d2l 没时间看懂。重要小结: 梯度截断 欲求 ,链式法则展开为 前两项好求,但第三项 既依赖于 又依赖于 ,而后者又依赖于 ,最终导出的梯度是一个带有求积的求和项,容易产生梯度爆炸 / 消失,故可在一定时间步后截断求和计算。 其他 说是 bptt 会在计算期间缓存中间值。