Question

我在理解 DQN 的培训部分时遇到一些问题。 DQN 中的 Xtrain 和 Ytrain 在哪里？因为在DQN算法中尚不清楚。

https://cdn-images-1.medium.com/max/1600/1*nb61CxDTTAWR1EJnbCl1cA.png

此外，如果我需要比较 dqn 的结果与随机森林和支持向量回归的结果。我需要为他们准备Xtrain和Ytrain。

（我的意思是用一种有监督的学习还是无监督的学习方法代替深度学习部分？）

Answer 1

DQN是一种强化学习算法，因为训练数据是通过与环境（仿真器）交互而获得的体验元组，所以直接不存在X_train或Y_train。在您包含的图像中，您可以将Q值视为目标（y），将序列s和预处理的序列phi视为输入。（x）。

您不能真正将DQN与RF或SVR进行比较，因为DQN是强化学习，而RF / SVR是监督学习算法，它们不能解决相同的问题，因此无法进行比较。