给定上下文中最佳得分(奖励)的操作分类

时间:2019-04-22 18:37:20

标签: python tensorflow classification reward

我是tf的初学者,所以请放纵...

我有一个数据集,其中包含动作,上下文描述符和分数(奖励​​)。我尝试训练一个模型,该模型预测给定上下文的最佳动作(由分数定义)。

数据如下:

action(标签);上下文特征1;上下文特征2;上下文特征3;得分(奖励)

我知道这看起来像是强化学习问题,但是我读到强化学习不使用任何数据库。

我尝试了包括奖励在内的自定义损失功能,并通过优化程序将其最小化,但似乎没有效果...

感谢您的回答。

杰拉德

0 个答案:

没有答案