是否正在努力应用Loss *(-1)作为强化学习的奖励?

时间:2019-06-09 11:36:18

标签: tensorflow reinforcement-learning

我要对在cifar10上训练的数据进行微调的原始代码将准确性用作奖励,将softmax用作损失,但我的数据不是[image:label]配对数据,所以我想知道负损失函数作为奖励是否有效? 似乎仍然有些怪异。

0 个答案:

没有答案