给定状态向量,我们可以通过连续生成每个输出以贪婪的方式递归地解码序列,其中每个预测都以先前的输出为条件。我最近读了一篇论文,描述了在解码过程中使用光束搜索,光束大小为1(k = 1)。如果我们只是在每一步保留最佳输出,那么这与贪婪解码的效果是否相同,并没有提供光束搜索通常提供的任何好处?
答案 0 :(得分:5)
终于找到答案:光束大小为1与贪婪搜索相同。
来自“使用注意回归神经网络的抽象句概括”:
"k refers to the size of the beam for generation; k = 1 implies greedy generation."