9.8.beam-search Published at 2024-08-22 Licensed under CC BY-NC-SA 4.0 notesjulyfun技术学习d2l 预测序列时,并非选择最大概率的词元,而是保留前 个最大概率词元,进行预测后会生成 个词,再在其中选择 个最大当前概率的词元,依此类推。 我感觉也可以选择历史概率乘积最大的 个,而不是当前概率。