我的问题与强化学习的实施无关,而是在每个状态都是终端状态时理解RL的概念。
我举一个例子:一个机器人正在学习踢足球,只是射击。奖励是球射入球门后球与球门柱之间的距离。状态是具有多个特征的数组,动作是具有三维力的数组。
如果我们考虑情景RL,那么我觉得这种方法没有意义。的确,机器人会射击并给予奖励:每个情节都是末期情节。将下一个状态传递给系统是没有意义的,因为算法并不关心它是否可以优化奖励-在这种情况下,我将使用Actor-Critic方法来处理连续状态和动作空间。有人可能会争辩说,诸如深度神经网络之类的其他有监督学习方法可能会更好。但是我不确定,因为在那种情况下,如果输入的数据远离训练集,该算法将无法获得良好的结果。据我所知,RL在这种情况下能够更好地概括。
问题是:RL是解决此问题的有效方法,在这种情况下如何管理终端状态?您知道文学中的类似例子吗?
答案 0 :(得分:1)
RL方法的主要困难在于将奖励归因于更早的动作,找出在没有对您做对或做错的时间(时间)没有明确反馈的情况下如何处理(常见)并发症的方法。您没有这个问题-您可以直接从行动中获得回报。
基本的有监督的学习方法可以很好地解决此问题,并且没有理由让强化学习“机器”参与其中。
答案 1 :(得分:1)
在情节性RL中没有下一个状态,它只是黑盒(BB)优化。您的情况是情境 BB,因为您也有一个状态(我想是球的位置)。您可以使用策略梯度(例如NES或PGPE),策略搜索(here是一个很好的调查),演化(CMA-ES)或混合策略。它们在执行更新的方式上有所不同,但是它们都是与奖励无关的,即,他们不知道奖励功能,而只是获得奖励值。
他们都使用相同的方法:
(features, action, reward)
,编辑
由于没有下一个状态,因此您的问题有点像回归问题,但是您不知道最佳目标(最佳动作=最佳机器人控制器)。取而代之的是,您绘制一些目标并逐渐适应最佳目标(缓慢进行,例如使用梯度下降法,因为可能还需要探索更好的目标)。
答案 2 :(得分:1)
如果我已正确理解您的问题,则您所描述的问题在文献中称为 Contextual Bandits 。在这种情况下,您具有一组状态,并且座席执行一项操作后会获得奖励。这个问题与强化学习密切相关,但是它们具有一些特殊功能,可用于设计特定算法。
从Arthur Juliani's post中提取的下图显示了多臂强盗,上下文强盗和强化学习问题之间的主要区别: