应用错误收集

在张量流中使用负损失

时间：2018-01-07 18:12:39

标签： python tensorflow machine-learning

我正在实施一个基于类采取行动的强化剂。所以它可以采取行动1或2或3或4。

所以我的问题是我可以在tensorflow中使用负损失来阻止它输出动作。

实施例：假设代理输出动作1我想非常强烈地阻止它再次在那种情况下采取行动1。但是没有一个已知的行动应该取而代之。所以我不能只选择一个不同的动作来让它学到这一点。

所以我的问题是：张量流梯度计算是否处理损失的负值。如果它确实会以我描述的方式工作吗？

1 个答案:

答案 0 :(得分：1)

梯度下降最小化器通常会尝试找到最小损耗，而与损耗表面的符号无关。听起来你要么 a）分配大量损失以鼓励你的模特选择其他东西或 b）分配第五个 no-action 类别。