应用错误收集

Q学习非常容易实现，可以轻松地用于探索和解决各种环境或游戏。但是随着国家的复杂性增加，而且没有。可能采取的行动增多，Q学习的实用性下降。

假设我有一个游戏（以在GTA中驾驶汽车为例），为此我将状态作为预处理的帧进行输入并要求其采取一些措施。但是这里出现了两个问题：-

因此，如果我们面临多个Q值和较大的“状态”值，那么代理将需要一些时间来比较其所处的状态，然后采取相应的行动，以过渡到该状态一个新状态（速度是其中非常重要的因素）

那么，我们将如何解决这种情况？我认为，我们可以为此使用蒙特卡洛，但这可能还需要一些时间。那么还有其他解决方案/算法可以解决吗？或者我可以在这种情况下实际使用Q学习吗？或者，也许我应该得到一个DDR5 RAM并每天称呼它？我现在在DDR3上，顺便说一句;）

有帮助或指导吗？

由于您要处理环境中的大量状态，因此可能应该考虑使用某种function approximation而不是使用表格表示形式的Q值。

在许多实际问题中，出于多种原因，将所有Q值存储在表中是不切实际的。来自Sutton and Barto's book：

问题不仅仅在于大表所需的内存，还在于准确填充所需的时间和数据。换句话说，关键问题是泛化。 [...]函数逼近是监督学习的一个实例，它是机器学习，人工神经网络，模式识别和统计曲线拟合研究的主要主题。原则上，如本章所述，可以将在这些领域中研究的任何方法用于强化学习。

在这种情况下，尽管工作原理保持不变，但实施Q学习并不是那么简单。