应用错误收集

时间：2019-05-03 04:23:20

标签： machine-learning neural-network deep-learning nlp reinforcement-learning

我正在尝试按照强化学习的方法，通过随机优化训练Echo State Network进行文本生成，其中优化取决于奖励信号。

我观察到，在评估过程中，当我从概率分布中采样时，布鲁得分大于我从分布中获得argmax时。差异几乎超过0.10点（BLEU分数通常在0到1之间）。我不确定为什么会这样。需要帮助。

答案 0 :(得分：2)

您不使用argmax函数，因为它是确定性方法。这样做的主要问题是，它很容易使您陷入循环。这意味着，如果文本生成中出现错误，则您很可能会继续走这条路而没有任何可能。随机性允许“跳出”循环。

一个很好的例子来说明这种跳出的需要，例如Page Rank算法。它使用随机游走参数，使虚构的冲浪者摆脱困境。

TensorFlow团队在其Tutos中对此进行了说明（没有任何理由）：

注意：从此分布中取样很重要，因为采用分布的argmax可以很容易地使模型陷入循环。