how to

8.7.bptt

Aug 16, 2024
notesjulyfun技术学习d2l
1 Minutes
156 Words

没时间看懂。重要小结:

梯度截断

𝑡=𝑓(𝑥𝑡,𝑡1,𝑤)

𝑜𝑡=𝑔(𝑡,𝑤𝑜)

𝐿=1𝑇𝑇𝑡=1𝑙(𝑦𝑡,𝑜𝑡)

欲求 𝜕𝐿𝜕𝑤,链式法则展开为 𝑇𝑡=1𝜕𝑙(𝑦𝑡,𝑜𝑡)𝜕𝑜𝑡𝜕𝑜𝑡𝜕𝑡𝜕𝑡𝜕𝑤

前两项好求,但第三项 𝑡 既依赖于 𝑤 又依赖于 𝑡1,而后者又依赖于 𝑤,最终导出的梯度是一个带有求积的求和项,容易产生梯度爆炸 / 消失,故可在一定时间步后截断求和计算。

其他

  • 说是 bptt 会在计算期间缓存中间值。
Article title:8.7.bptt
Article author:Julyfun
Release time:Aug 16, 2024
Copyright 2025
Sitemap