Question

我正在尝试使用标准的全连接神经网络作为Q-Learning中行动值的基础。我使用http://deeplearning.net/tutorial/mlp.html#mlp作为参考，特别是这一行：

gparams = [T.grad(cost, param) for param in classifier.params]

我想使用Q-Learning策略控制方法（如http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node65.html中所述）计算与上一个操作相关联的输出单元的错误，并将其他输出错误设置为零。

如何使用Theano的grad函数将错误反向传播到神经网络的其余部分？

Answer 1

神经网络只是参数化Q函数的一种可能方式。在这种情况下你执行梯度下降的方式在Sutton和Barto的书section中有解释。只需将神经网络的权重视为参数向量。