我想获得一些关于如何将Q学习算法与函数逼近结合使用的有用指导。对于基本的Q学习算法,我找到了例子,我想我确实理解了它。在使用函数逼近的情况下,我遇到了麻烦。有人可以通过一个简短的例子给我一个解释它是如何工作的吗?
我所知道的:
我查了一下这篇论文:Q-learning with function approximation
但我找不到任何有用的教程如何使用它。
感谢您的帮助!
答案 0 :(得分:2)
在我看来,this是最好的参考资料之一。它写得很好,有几个伪代码示例。在您的情况下,您可以通过忽略资格跟踪来简化算法。
另外,根据我的经验,根据您的使用案例,Q-Learning可能效果不佳(有时需要大量的经验数据)。例如,您可以尝试Fitted-Q值,这是一种批处理算法。