应用错误收集

在DQN中，为什么要计算y_i但不存储？

时间：2019-05-21 12:10:35

标签： reinforcement-learning

下面的DQN算法

D的记录中有phi_t，a_t，r_t和phi_ {t + 1}字段。为什么我们在D的记录中没有一个“ y”字段，所以一旦计算就可以存储“ y”值？

我的意思是，小批量是从D中随机选择的，没有任何限制，因此可以多次选择一条记录，尤其是当D的记录数不够大时。如果发生这种情况，则需要多次重新计算y。我在想正确吗？

1 个答案:

答案 0 :(得分：1)

因为y_i是使用函数Q计算的，函数Q在迭代之间是不同的。因此，一次迭代中存储的值对于下一次迭代无效。

在同一迭代中，我想你很直白指出，如果多次采样相同的过渡，则不必多次计算y_i，而是可以使用相同的结果。我想伪代码比这些实现细节更关注关键概念。