应用错误收集

我正在尝试训练DNNClassifier来玩简单的游戏。每个条目包含动作分类标签，功能以及与动作相关的得分/奖励。分数可以是负数或正数。

我读过几篇文章，因为它是由数据集制成的，所以它并不是严格意义上的学习。

数据结构：

动作（标签）；功能1（字符串类别）；功能2（浮动）；功能3（浮动）；奖励（浮动）

我的目标是模型为特征定义的给定情况找到最佳（较高）奖励分数。有时没有“好的”（积极的）解决方案，因此它必须找到“不太糟糕的”。

1）是否存在“预制”功能来规范我的负面奖励？

我尝试过：

损失=损失*（（6-奖励）/ 6）

但是看起来并不好...

2）使用损耗是做到这一点的好方法??

感谢您的回答。

杰拉德

损失=损失*（（6-奖励）/ 6）