标签: tensorflow reinforcement-learning
我要对在cifar10上训练的数据进行微调的原始代码将准确性用作奖励,将softmax用作损失,但我的数据不是[image:label]配对数据,所以我想知道负损失函数作为奖励是否有效? 似乎仍然有些怪异。