我正在尝试训练DNNClassifier来玩简单的游戏。每个条目包含动作分类标签,功能以及与动作相关的得分/奖励。分数可以是负数或正数。
我读过几篇文章,因为它是由数据集制成的,所以它并不是严格意义上的学习。
数据结构:
动作(标签);功能1(字符串类别);功能2(浮动);功能3(浮动);奖励(浮动)
我的目标是模型为特征定义的给定情况找到最佳(较高)奖励分数。有时没有“好的”(积极的)解决方案,因此它必须找到“不太糟糕的”。
1)是否存在“预制”功能来规范我的负面奖励?
我尝试过:
损失=损失*((6-奖励)/ 6)
但是看起来并不好...
2)使用损耗是做到这一点的好方法??
感谢您的回答。
杰拉德
损失=损失*((6-奖励)/ 6)