具有线性函数逼近的Q学习

时间:2016-03-22 16:40:44

标签: algorithm reinforcement-learning q-learning function-approximation

我想获得一些关于如何将Q学习算法与函数逼近结合使用的有用指导。对于基本的Q学习算法,我找到了例子,我想我确实理解了它。在使用函数逼近的情况下,我遇到了麻烦。有人可以通过一个简短的例子给我一个解释它是如何工作的吗?

我所知道的:

  1. 我们使用特征和参数而不是使用矩阵表示Q值。
  2. 使用feauters和参数的线性组合进行近似。
  3. 更新参数。
  4. 我查了一下这篇论文:Q-learning with function approximation

    但我找不到任何有用的教程如何使用它。

    感谢您的帮助!

1 个答案:

答案 0 :(得分:2)

在我看来,this是最好的参考资料之一。它写得很好,有几个伪代码示例。在您的情况下,您可以通过忽略资格跟踪来简化算法。

另外,根据我的经验,根据您的使用案例,Q-Learning可能效果不佳(有时需要大量的经验数据)。例如,您可以尝试Fitted-Q值,这是一种批处理算法。