来自概率分布的argmax比来自softmax的随机采样更好的策略?

时间:2019-05-03 04:23:20

标签: machine-learning neural-network deep-learning nlp reinforcement-learning

我正在尝试按照强化学习的方法,通过随机优化训练Echo State Network进行文本生成,其中优化取决于奖励信号。

我观察到,在评估过程中,当我从概率分布中采样时,布鲁得分大于我从分布中获得argmax时。差异几乎超过0.10点(BLEU分数通常在0到1之间)。 我不确定为什么会这样。 需要帮助。

1 个答案:

答案 0 :(得分:2)

您不使用argmax函数,因为它是确定性方法。这样做的主要问题是,它很容易使您陷入循环。这意味着,如果文本生成中出现错误,则您很可能会继续走这条路而没有任何可能。随机性允许“跳出”循环。

一个很好的例子来说明这种跳出的需要,例如Page Rank算法。它使用随机游走参数,使虚构的冲浪者摆脱困境。

TensorFlow团队在其Tutos中对此进行了说明(没有任何理由) :

  

注意:从此分布中取样很重要,因为采用分布的argmax可以很容易地使模型陷入循环。