当我训练我的模型时,我有以下部分:
s_t_batch, a_batch, y_batch = train_data(minibatch, model2)
# perform gradient step
loss.append(model.train_on_batch([s_t_batch, a_batch], y_batch))
其中s_t, a_
分别对应于在这些状态下采取的当前状态和操作。 model2
与model
相同,只是model2
的输出为num_actions
,model
仅输出在该状态下执行的操作的值。
我觉得奇怪(并且确实是这个问题的焦点)在函数train_data
我有这条线:
y_batch = r_batch + GAMMA * np.max(model.predict(s_t_batch), axis=1)
奇怪的是,我正在使用模型生成我的y_batch
以及对它们进行培训。这不会成为某种自我实现的预言吗?如果我理解正确,该模型会尝试预测预期的最大奖励。使用相同的模型来尝试生成y_batch
,这意味着它是真正的模型吗?
问题是,1。使用相同模型生成y_batch的直觉是什么,因为它是训练它们。 2.(可选)损失值是否意味着什么。当我绘制它时,似乎似乎没有收敛,但是奖励的总和似乎在增加(参见下面链接中的情节)。
可以找到完整的代码here,这是关于CartPole-v0问题的深度Q学习的实现:
答案 0 :(得分:2)
模型根据自己的预测进行训练的事实是Q学习的全部要点:它是一个名为bootstrapping的概念,这意味着重复使用你的经验。这背后的见解是:
t
(= [s_t_batch, a_batch]
)的Q值近似值与状态t+1
的(折扣)近似值之间的差异 加上 奖励(= y_batch
),它可以衡量它对Qt
的预测错误。您的损失恰恰是这样的:对于一个批次,它是您的模型预测时间t
与其唯一Q值近似值及其对时间{{1}的预测之间的均方误差从 next 状态的Q值近似值开始,并考虑一些"基础事实"来自环境,即这个时间步的奖励。
在我看来,你的损失确实有所下降,但它非常不稳定,这是香草Q-Learning特别是香草深Q-Learning的已知问题。请查看下面的概述文章,了解更复杂的算法如何工作
我建议你研究一下Temporal Difference Learning。 好的资源也是