应用错误收集

在每个州都处于终结状态的强化学习

时间：2019-02-25 16:23:43

标签： machine-learning reinforcement-learning

我的问题与强化学习的实施无关，而是在每个状态都是终端状态时理解RL的概念。

我举一个例子：一个机器人正在学习踢足球，只是射击。奖励是球射入球门后球与球门柱之间的距离。状态是具有多个特征的数组，动作是具有三维力的数组。

如果我们考虑情景RL，那么我觉得这种方法没有意义。的确，机器人会射击并给予奖励：每个情节都是末期情节。将下一个状态传递给系统是没有意义的，因为算法并不关心它是否可以优化奖励-在这种情况下，我将使用Actor-Critic方法来处理连续状态和动作空间。有人可能会争辩说，诸如深度神经网络之类的其他有监督学习方法可能会更好。但是我不确定，因为在那种情况下，如果输入的数据远离训练集，该算法将无法获得良好的结果。据我所知，RL在这种情况下能够更好地概括。

问题是：RL是解决此问题的有效方法，在这种情况下如何管理终端状态？您知道文学中的类似例子吗？

3 个答案:

答案 0 :(得分：1)

强化学习解决了您没有的问题

RL方法的主要困难在于将奖励归因于更早的动作，找出在没有对您做对或做错的时间（时间）没有明确反馈的情况下如何处理（常见）并发症的方法。您没有这个问题-您可以直接从行动中获得回报。

基本的有监督的学习方法可以很好地解决此问题，并且没有理由让强化学习“机器”参与其中。

答案 1 :(得分：1)

在情节性RL中没有下一个状态，它只是黑盒（BB）优化。您的情况是情境 BB，因为您也有一个状态（我想是球的位置）。您可以使用策略梯度（例如NES或PGPE），策略搜索（here是一个很好的调查），演化（CMA-ES）或混合策略。它们在执行更新的方式上有所不同，但是它们都是与奖励无关的，即，他们不知道奖励功能，而只是获得奖励值。

他们都使用相同的方法：

您有一个初步的政策（又称搜索分布）
查看功能并将其提供给策略，这将给您“操作”（在您的情况下：绘制机器人的控制参数，然后射击），
查看奖励
重复并收集数据(features, action, reward)，
更新策略，直到您了解能够始终在任意位置击球的机器人控制器为止。

编辑

由于没有下一个状态，因此您的问题有点像回归问题，但是您不知道最佳目标（最佳动作=最佳机器人控制器）。取而代之的是，您绘制一些目标并逐渐适应最佳目标（缓慢进行，例如使用梯度下降法，因为可能还需要探索更好的目标）。

答案 2 :(得分：1)

如果我已正确理解您的问题，则您所描述的问题在文献中称为 Contextual Bandits 。在这种情况下，您具有一组状态，并且座席执行一项操作后会获得奖励。这个问题与强化学习密切相关，但是它们具有一些特殊功能，可用于设计特定算法。

从Arthur Juliani's post中提取的下图显示了多臂强盗，上下文强盗和强化学习问题之间的主要区别：