如何管理喀拉拉邦政策梯度中的负面奖励?

时间:2020-05-15 22:52:03

标签: tensorflow keras reinforcement-learning

这里是相同的基本问题,但是3岁了,没有确切的答案:

https://ai.stackexchange.com/questions/2405/negative-reward-penalty-in-policy-gradient-reinforcement-learning

问题是,如果我在喀拉拉邦进行政策梯度调整,则使用以下形式:

rewards*cross_entropy(action_pdf, selected_action_one_hot)

如何管理负面奖励?

在报酬始终为正数但不接受负报酬的情况下,我在这种形式上取得了成功。失效模式使它始终无时无刻地做出非常自信的预测,由于引起的勘探偏差而导致非常大的负损失。我可以通过将奖励减为零来进行训练,但这会在桌子上抛出很多有价值的信息(只有胡萝卜,没有棍棒)。

0 个答案:

没有答案