我正在尝试训练DRL代理使用DQN方法玩游戏。这场比赛很直接,类似突破。水果从屏幕顶部(垂直)不断下降,代理人需要将自己与水果对齐以获得奖励。它可以采取三种行动:向左移动,停留,向右移动。
假设a2表示没有移动桨,a3表示向右移动而a1表示向左移动。
假设我们采取次优动作a3(向右移动)并进入下一个状态。那么该状态下的最佳动作是向左移动(a1)然后执行最佳动作。因此,动作a2和a3之间的唯一成本差异将是浪费去和返回的两个步骤。
如果采取次优行动没有负面回报,则代理人没有动力选择最佳行动。因此,采取次优行动的负面回报应该足够高,以至于不鼓励代理人这样做。我试图在这里以数学的方式把这种直觉。这可以解释为什么q值彼此如此接近。
然后,最佳Q *函数满足以下条件:
1)这是对的吗? (这个论点有缺陷吗?)
2)这可以解释为什么在深度Q学习中Q值非常接近吗?