9.8.beam search

预测序列时，并非选择最大概率的词元，而是保留前 $k$ 个最大概率词元，进行预测后会生成 $k times n_"vocab"$ 个词，再在其中选择 $k$ 个最大当前概率的词元，依此类推。

我感觉也可以选择历史概率乘积最大的 $k$ 个，而不是当前概率。