我是RL中的新手,所以如果我问愚蠢的问题,请原谅我:)
我现在正在处理DQN项目,它与最简单的蛇游戏非常相似。该游戏使用js编写,并有一个演示(蛇在其中随机移动)。但是由于我不知道如何编写js,所以我无法在训练过程中将动作值传递给游戏,所以我现在要做的是生成随机游戏图像并训练dqn模型。
我想问的是:是否可以通过这种方式进行? Q(s,r)还能收敛吗?如果有可能,我应该注意什么?我是否需要Episilon参数了?
非常感谢:)
答案 0 :(得分:0)
我肯定会拒绝!
问题是代理只会从随机决策中学习,如果学习的动作产生更多的奖励,则永远不会尝试。所以他学到的一切都将基于起始帧。 此外,在您的情况下,代理永远不会学习如何处理他的大小(如果它像蛇一样增长),因为他永远不会因为糟糕的随机决策而增长。
想象一下,一个孩子试图骑自行车,一旦它骑了 1 米,你就把它从自行车上取下来。它可能能够直行一米甚至更多米,但永远无法转弯等。