我正在尝试让代理人学习在强化学习环境中最好地完成某项任务所需的鼠标移动(即奖励信号是学习的唯一反馈)。
我希望使用Q-learning技术,但是当我找到a way to extend this method to continuous state spaces时,我似乎无法弄清楚如何解决连续动作空间的问题。
我可以强迫所有鼠标移动到一定幅度并且只在一定数量的不同方向上,但任何合理的方法使动作离散都会产生巨大的动作空间。由于标准Q学习需要代理评估所有可能的动作,因此这种近似并不能解决任何实际意义上的问题。
答案 0 :(得分:14)
快进到今年,来自DeepMind的人们提出了一个深层强化学习演员 - 评论家方法来处理两个连续状态和动作空间。它基于一种称为确定性政策梯度的技术。请参阅论文Continuous control with deep reinforcement learning和一些implementations。
答案 1 :(得分:10)
有许多方法可以将强化学习扩展到持续行动。一种方法是使用演员评论方法。另一种方法是使用政策梯度方法。
可以在以下论文中找到对不同方法的相当广泛的解释,该论文可在线获取: Reinforcement Learning in Continuous State and Action Spaces(由Hado van Hasselt和Marco A. Wiering撰写)。
答案 2 :(得分:8)
处理此问题的常见方法是使用actor-critic methods。这些自然延伸到连续动作空间。使用近似值时,基本Q学习可能会有所不同,但是,如果您仍想使用它,可以尝试将其与自组织地图相结合,如"Applications of the self-organising map to reinforcement learning"中所述。本文还包含一些您可能会发现有用的参考文献。
答案 3 :(得分:4)
对于你正在做的事情,我不相信你需要在连续的行动空间中工作。尽管物理鼠标在连续的空间中移动,但在内部光标仅以不连续的步骤(通常在像素级别)移动,因此获得高于此阈值的任何精度似乎不会对代理的性能产生任何影响。状态空间仍然很大,但它是有限且离散的。
答案 4 :(得分:1)
我知道这篇文章有些古老,但是在2016年,有人提出了将Q学习应用于连续动作空间的一种变体,作为演员批评方法的替代方法。这称为归一化优势函数(NAF)。这是论文:Continuous Deep Q-Learning with Model-based Acceleration
答案 5 :(得分:0)
基于价值的学校的另一份清单上的论文是Input Convex Neural Networks。这个想法是要求Q(s,a)在动作中凸出(不一定在状态中)。然后,解决argmax Q推断的问题简化为使用凸度来找到全局最优值,这比穷举扫描快得多,并且比其他基于值的方法更易于实现。但是,可能会以降低代表能力为代价,而不是通常的前馈或卷积神经网络。