我正在尝试按照强化学习的方法,通过随机优化训练Echo State Network进行文本生成,其中优化取决于奖励信号。
我观察到,在评估过程中,当我从概率分布中采样时,布鲁得分大于我从分布中获得argmax时。差异几乎超过0.10点(BLEU分数通常在0到1之间)。 我不确定为什么会这样。 需要帮助。
答案 0 :(得分:2)
您不使用argmax函数,因为它是确定性方法。这样做的主要问题是,它很容易使您陷入循环。这意味着,如果文本生成中出现错误,则您很可能会继续走这条路而没有任何可能。随机性允许“跳出”循环。
一个很好的例子来说明这种跳出的需要,例如Page Rank算法。它使用随机游走参数,使虚构的冲浪者摆脱困境。
TensorFlow团队在其Tutos中对此进行了说明(没有任何理由) :
注意:从此分布中取样很重要,因为采用分布的argmax可以很容易地使模型陷入循环。