Q学习非常容易实现,可以轻松地用于探索和解决各种环境或游戏。但是随着国家的复杂性增加,而且没有。可能采取的行动增多,Q学习的实用性下降。
假设我有一个游戏(以在GTA中驾驶汽车为例),为此我将状态作为预处理的帧进行输入并要求其采取一些措施。但是这里出现了两个问题:-
因此,如果我们面临多个Q值和较大的“状态”值,那么代理将需要一些时间来比较其所处的状态,然后采取相应的行动,以过渡到该状态一个新状态(速度是其中非常重要的因素)
那么,我们将如何解决这种情况?我认为,我们可以为此使用蒙特卡洛,但这可能还需要一些时间。那么还有其他解决方案/算法可以解决吗?或者我可以在这种情况下实际使用Q学习吗?或者,也许我应该得到一个DDR5 RAM并每天称呼它?我现在在DDR3上,顺便说一句;)
有帮助或指导吗?
答案 0 :(得分:1)
由于您要处理环境中的大量状态,因此可能应该考虑使用某种function approximation而不是使用表格表示形式的Q值。
在许多实际问题中,出于多种原因,将所有Q值存储在表中是不切实际的。来自Sutton and Barto's book:
问题不仅仅在于大表所需的内存,还在于 准确填充所需的时间和数据。换句话说,关键 问题是泛化。 [...]函数逼近是监督学习的一个实例,它是机器学习,人工神经网络,模式识别和统计曲线拟合研究的主要主题。原则上,如本章所述,可以将在这些领域中研究的任何方法用于强化学习。
在这种情况下,尽管工作原理保持不变,但实施Q学习并不是那么简单。