什么是深度Q学习算法中的phi

时间:2016-10-04 09:39:37

标签: java machine-learning neural-network deep-learning q-learning

我正在尝试用Java从头开始学习足球游戏,我正在尝试使用Google DeepMind的深度Q学习算法实现强化学习(尽管没有卷积网络)。我已经建立了神经网络和Q-learning,现在我正在尝试将它们加在一起,但是在这段代码中我有些不明白。

  1. Q值是否通常用零而不是随机值初始化?或者这是否意味着神经网络的权重(第2行)
  2. 是什么意思
  3.   

    预处理顺序Φ1=Φ(s1)(第4行)

    我无法弄清楚Φ在这个算法中代表什么。

1 个答案:

答案 0 :(得分:2)

  1. 它指的是神经网络的权重
  2. Φ(s)是指预处理图/步骤,Φ是Φ(s1)的简写 每帧为210x160像素x 128色。本文使用了一些预处理。它们消除了闪烁,仅使用亮度,重新缩放和堆叠。 请查看2015年论文中的“方法”部分。