应用错误收集

给定上下文中最佳得分（奖励）的操作分类

时间：2019-04-22 18:37:20

标签： python tensorflow classification reward

我是tf的初学者，所以请放纵...

我有一个数据集，其中包含动作，上下文描述符和分数（奖励）。我尝试训练一个模型，该模型预测给定上下文的最佳动作（由分数定义）。

数据如下：

action（标签）；上下文特征1；上下文特征2；上下文特征3；得分（奖励）

我知道这看起来像是强化学习问题，但是我读到强化学习不使用任何数据库。

我尝试了包括奖励在内的自定义损失功能，并通过优化程序将其最小化，但似乎没有效果...

感谢您的回答。

杰拉德

0 个答案:

没有答案