应用错误收集

是否正在努力应用Loss *（-1）作为强化学习的奖励？

时间：2019-06-09 11:36:18

标签： tensorflow reinforcement-learning

我要对在cifar10上训练的数据进行微调的原始代码将准确性用作奖励，将softmax用作损失，但我的数据不是[image：label]配对数据，所以我想知道负损失函数作为奖励是否有效？似乎仍然有些怪异。

0 个答案:

没有答案