应用错误收集

这里是相同的基本问题，但是3岁了，没有确切的答案：

问题是，如果我在喀拉拉邦进行政策梯度调整，则使用以下形式：

rewards*cross_entropy(action_pdf, selected_action_one_hot)

如何管理负面奖励？

在报酬始终为正数但不接受负报酬的情况下，我在这种形式上取得了成功。失效模式使它始终无时无刻地做出非常自信的预测，由于引起的勘探偏差而导致非常大的负损失。我可以通过将奖励减为零来进行训练，但这会在桌子上抛出很多有价值的信息（只有胡萝卜，没有棍棒）。