使用强化学习进行分类问题

时间:2017-06-16 16:31:11

标签: tensorflow deep-learning reinforcement-learning

我可以在分类上使用强化学习吗?比如人类活动识别?怎么样?

3 个答案:

答案 0 :(得分:6)

有两种类型的反馈。一个是用于强化学习方法的评价,另一个是用于监督学习的指导性,主要用于分类问题。

当使用监督学习时,基于已经存在的正确类别标签的信息,调整网络的权重,例如神经网络。所以在选择错误的类损失增加和权重调整,以便对于那种输入,不再选择这个错误的类。

然而,在强化学习中,系统探索所有可能的动作,在这种情况下各种输入的类标签,并通过评估奖励来决定什么是对的,什么是错的。也许情况也是如此,直到它获得正确的类标签,它可能会给出错误的类名,因为它是迄今为止发现的最佳输出。因此,它没有利用我们对类标签的具体知识,因此与监督学习相比,显着降低了收敛速度

您可以将强化学习用于分类问题,但它不会给您任何额外的好处,反而会降低您的收敛速度。

答案 1 :(得分:3)

简短回答:是的。

详细答案:是的,但这有点矫枉过正。当您没有标记数据集来学习正确的策略时,强化学习很有用,因此您需要根据奖励制定正确的策略。这也允许通过不可微分块反向传播(我认为这不是你的情况)。强化学习方法的最大缺点是,通常需要非常大的时间来收敛。因此,如果您拥有标签,那么使用常规监督学习会更快更容易。

答案 2 :(得分:0)

您也许可以开发一个RL模型,以选择要使用的分类器。 gt标签用于训练分类器,这些分类器的性能变化是RL模型的奖励。正如其他人所说,收敛可能会花费很长时间。这个想法可能还需要许多技巧和调整才能使其生效。我建议搜索有关此主题的研究论文。