如何在使用Q-Learning时使用theano计算神经网络的梯度

时间:2016-04-01 20:09:03

标签: neural-network theano reinforcement-learning

我正在尝试使用标准的全连接神经网络作为Q-Learning中行动值的基础。我使用http://deeplearning.net/tutorial/mlp.html#mlp作为参考,特别是这一行:

gparams = [T.grad(cost, param) for param in classifier.params]

我想使用Q-Learning策略控制方法(如http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node65.html中所述)计算与上一个操作相关联的输出单元的错误,并将其他输出错误设置为零。

如何使用Theano的grad函数将错误反向传播到神经网络的其余部分?

1 个答案:

答案 0 :(得分:0)

神经网络只是参数化Q函数的一种可能方式。在这种情况下你执行梯度下降的方式在Sutton和Barto的书section中有解释。只需将神经网络的权重视为参数向量。