Question

给定状态向量，我们可以通过连续生成每个输出以贪婪的方式递归地解码序列，其中每个预测都以先前的输出为条件。我最近读了一篇论文，描述了在解码过程中使用光束搜索，光束大小为1（k = 1）。如果我们只是在每一步保留最佳输出，那么这与贪婪解码的效果是否相同，并没有提供光束搜索通常提供的任何好处？

Answer 1

终于找到答案：光束大小为1与贪婪搜索相同。

来自“使用注意回归神经网络的抽象句概括”：

"k refers to the size of the beam for generation; k = 1 implies greedy generation."