来自数据库的正负奖励分数,用于按张量流分类

时间:2019-04-04 06:04:04

标签: database tensorflow reward

我正在尝试训练DNNClassifier来玩简单的游戏。每个条目包含动作分类标签,功能以及与动作相关的得分/奖励。分数可以是负数或正数。

我读过几篇文章,因为它是由数据集制成的,所以它并不是严格意义上的学习。

数据结构:

动作(标签);功能1(字符串类别);功能2(浮动);功能3(浮动);奖励(浮动)

我的目标是模型为特征定义的给定情况找到最佳(较高)奖励分数。有时没有“好的”(积极的)解决方案,因此它必须找到“不太糟糕的”。

1)是否存在“预制”功能来规范我的负面奖励?

我尝试过:

损失=损失*((6-奖励)/ 6)

但是看起来并不好...

2)使用损耗是做到这一点的好方法??

感谢您的回答。

杰拉德

损失=损失*((6-奖励)/ 6)

0 个答案:

没有答案