下面的DQN算法
D的记录中有phi_t,a_t,r_t和phi_ {t + 1}字段。为什么我们在D的记录中没有一个“ y”字段,所以一旦计算就可以存储“ y”值?
我的意思是,小批量是从D中随机选择的,没有任何限制,因此可以多次选择一条记录,尤其是当D的记录数不够大时。如果发生这种情况,则需要多次重新计算y。我在想正确吗?
答案 0 :(得分:1)
因为y_i
是使用函数Q计算的,函数Q在迭代之间是不同的。因此,一次迭代中存储的值对于下一次迭代无效。
在同一迭代中,我想你很直白指出,如果多次采样相同的过渡,则不必多次计算y_i
,而是可以使用相同的结果。我想伪代码比这些实现细节更关注关键概念。