应用错误收集

我正在尝试训练DRL代理使用DQN方法玩游戏。这场比赛很直接，类似突破。水果从屏幕顶部（垂直）不断下降，代理人需要将自己与水果对齐以获得奖励。它可以采取三种行动：向左移动，停留，向右移动。

假设a2表示没有移动桨，a3表示向右移动而a1表示向左移动。

假设我们采取次优动作a3（向右移动）并进入下一个状态。那么该状态下的最佳动作是向左移动（a1）然后执行最佳动作。因此，动作a2和a3之间的唯一成本差异将是浪费去和返回的两个步骤。

如果采取次优行动没有负面回报，则代理人没有动力选择最佳行动。因此，采取次优行动的负面回报应该足够高，以至于不鼓励代理人这样做。我试图在这里以数学的方式把这种直觉。这可以解释为什么q值彼此如此接近。

然后，最佳Q *函数满足以下条件：

1）这是对的吗？（这个论点有缺陷吗？）

2）这可以解释为什么在深度Q学习中Q值非常接近吗？