应用错误收集

时间：2016-03-22 16:40:44

标签： algorithm reinforcement-learning q-learning function-approximation

我想获得一些关于如何将Q学习算法与函数逼近结合使用的有用指导。对于基本的Q学习算法，我找到了例子，我想我确实理解了它。在使用函数逼近的情况下，我遇到了麻烦。有人可以通过一个简短的例子给我一个解释它是如何工作的吗？

我所知道的：

但我找不到任何有用的教程如何使用它。

感谢您的帮助！

答案 0 :(得分：2)

在我看来，this是最好的参考资料之一。它写得很好，有几个伪代码示例。在您的情况下，您可以通过忽略资格跟踪来简化算法。

另外，根据我的经验，根据您的使用案例，Q-Learning可能效果不佳（有时需要大量的经验数据）。例如，您可以尝试Fitted-Q值，这是一种批处理算法。