应用错误收集

什么是深度Q学习算法中的phi

时间：2016-10-04 09:39:37

标签： java machine-learning neural-network deep-learning q-learning

我正在尝试用Java从头开始学习足球游戏，我正在尝试使用Google DeepMind的深度Q学习算法实现强化学习（尽管没有卷积网络）。我已经建立了神经网络和Q-learning，现在我正在尝试将它们加在一起，但是在这段代码中我有些不明白。

Q值是否通常用零而不是随机值初始化？或者这是否意味着神经网络的权重（第2行）
是什么意思

预处理顺序Φ1=Φ（s1）（第4行）

我无法弄清楚Φ在这个算法中代表什么。

1 个答案:

答案 0 :(得分：2)

它指的是神经网络的权重
Φ（s）是指预处理图/步骤，Φ是Φ（s1）的简写每帧为210x160像素x 128色。本文使用了一些预处理。它们消除了闪烁，仅使用亮度，重新缩放和堆叠。请查看2015年论文中的“方法”部分。