强化学习:处理无法量化的反馈系统

时间:2018-05-12 12:32:30

标签: machine-learning reinforcement-learning

我试图写一个强化学习算法,为了简单起见,我会通过输入n来预测一个我想到的数字[不应该是它们的重要]。因此,当算法预测一个数字时,我会回答它说“非常接近”。 '关闭' '确切' '远' '太远'

现在,我所见过的所有教程都有可量化的结果,他们通常会出现均方误差,看看预测中有多少错误。但这里的反馈是无法量化的

如何解决此问题?仅供参考我是ML的新手 它没有必要成为强化学习。我也尝试过神经网络方法,但即便有类似的问题

1 个答案:

答案 0 :(得分:0)

如果您使用简单线性回归进行此操作,则可以根据先前的示例训练模型。 n输入以及每个输入的实际答案将用于创建最接近满足所有示例数据的线性方程。在要求预测时,n输入通过此等式输入,此结果将作为预测。

通过强化学习,代理人可以根据"奖励"进行培训。在一系列状态下采取某些行动在环境中经历。这些奖励必须是可量化的。要使用RL方法,您需要量化您的响应集。我会想象'确切地说'会有一个很大的积极回报与之相关,并且关闭'得到一个小的积极奖励,并且远远超过'与之相关的负面奖励。您必须以某种方式量化您的反馈,否则RL代理将无法学习。"

您仍然可以通过衡量预测数量与结果之间的差异,将RMSE用作衡量政策准确性的指标。您应该可以访问实际结果,否则如何知道预测是精确,接近还是远?