标签: python tensorflow classification reward
我是tf的初学者,所以请放纵...
我有一个数据集,其中包含动作,上下文描述符和分数(奖励)。我尝试训练一个模型,该模型预测给定上下文的最佳动作(由分数定义)。
数据如下:
action(标签);上下文特征1;上下文特征2;上下文特征3;得分(奖励)
我知道这看起来像是强化学习问题,但是我读到强化学习不使用任何数据库。
我尝试了包括奖励在内的自定义损失功能,并通过优化程序将其最小化,但似乎没有效果...
感谢您的回答。
杰拉德