我正在尝试使用标准的全连接神经网络作为Q-Learning中行动值的基础。我使用http://deeplearning.net/tutorial/mlp.html#mlp作为参考,特别是这一行:
gparams = [T.grad(cost, param) for param in classifier.params]
我想使用Q-Learning策略控制方法(如http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node65.html中所述)计算与上一个操作相关联的输出单元的错误,并将其他输出错误设置为零。
如何使用Theano的grad函数将错误反向传播到神经网络的其余部分?
答案 0 :(得分:0)
神经网络只是参数化Q函数的一种可能方式。在这种情况下你执行梯度下降的方式在Sutton和Barto的书section中有解释。只需将神经网络的权重视为参数向量。