这里是相同的基本问题,但是3岁了,没有确切的答案:
问题是,如果我在喀拉拉邦进行政策梯度调整,则使用以下形式:
rewards*cross_entropy(action_pdf, selected_action_one_hot)
如何管理负面奖励?
在报酬始终为正数但不接受负报酬的情况下,我在这种形式上取得了成功。失效模式使它始终无时无刻地做出非常自信的预测,由于引起的勘探偏差而导致非常大的负损失。我可以通过将奖励减为零来进行训练,但这会在桌子上抛出很多有价值的信息(只有胡萝卜,没有棍棒)。