标签: java algorithm neural-network deep-learning q-learning
所以我正在尝试实施由Google DeepMind创建的Deep Q-learning算法,我想我现在已经有了很好的解决方案。然而,还有一个(非常重要的)我不太懂的东西,我希望你能提供帮助。
不是yj导致双重(Java),后者是否包含一个矩阵,其中包含以下行中当前状态的每个动作的Q值(算法中的第4行):
那么我该如何相互减去它们呢?
我是否应该将yj作为包含此处所有数据的矩阵,除非用
这似乎不是正确答案,我在这里有点迷失,你可以看到。
答案 0 :(得分:3)
实际上是我自己找到的。 (从一开始就做对了:D)