我正在实施一个基于类采取行动的强化剂。 所以它可以采取行动1或2或3或4。
所以我的问题是我可以在tensorflow中使用负损失来阻止它输出动作。
实施例: 假设代理输出动作1我想非常强烈地阻止它再次在那种情况下采取行动1。但是没有一个已知的行动应该取而代之。所以我不能只选择一个不同的动作来让它学到这一点。
所以我的问题是: 张量流梯度计算是否处理损失的负值。 如果它确实会以我描述的方式工作吗?
答案 0 :(得分:1)
梯度下降最小化器通常会尝试找到最小损耗,而与损耗表面的符号无关。听起来你要么 a)分配大量损失以鼓励你的模特选择其他东西或 b)分配第五个 no-action 类别。