在DQN中,为什么要计算y_i但不存储?

时间:2019-05-21 12:10:35

标签: reinforcement-learning

下面的DQN算法

enter image description here

Source

D的记录中有phi_t,a_t,r_t和phi_ {t + 1}字段。为什么我们在D的记录中没有一个“ y”字段,所以一旦计算就可以存储“ y”值?

我的意思是,小批量是从D中随机选择的,没有任何限制,因此可以多次选择一条记录,尤其是当D的记录数不够大时。如果发生这种情况,则需要多次重新计算y。我在想正确吗?

1 个答案:

答案 0 :(得分:1)

因为y_i是使用函数Q计算的,函数Q在迭代之间是不同的。因此,一次迭代中存储的值对于下一次迭代无效。

在同一迭代中,我想你很直白指出,如果多次采样相同的过渡,则不必多次计算y_i,而是可以使用相同的结果。我想伪代码比这些实现细节更关注关键概念。