对于DQN的迷宫逃逸问题,奖励没有增加

时间:2019-06-01 09:51:19

标签: deep-learning reinforcement-learning

我正在使用深度强化学习来解决经典的迷宫转义任务,与here提供的实现类似,但以下三个主要区别除外:

  1. 我没有使用numpy数组作为标准迷宫转义任务的输入,而是在每个步骤中为模型提供图像;该图像是1300 * 900 RGB图像,因此它不会太小。

  2. 奖励:

    • 每个有效举动都有少量负面奖励(惩罚长距离举动)
    • 每个无效举动都有很大的负面奖励(碰到其他物体或边界)
    • 每个被阻止的举动都具有最小的奖励(不常见)
    • 发现远程探测器的缺陷得到了积极的回报(5)
  3. 我调整了重播内存的参数,减小了重播内存缓冲区的大小。

关于实现,除上述各项外,我基本上不更改代理设置,而是实现了env来包装我的自定义迷宫。

但是问题在于,累积奖励(成功逃脱的前200轮)不会增加:

enter image description here

逃离一个迷宫所需的步数也很稳定:

enter image description here

这是我的问题,我可以从哪个方面着手来优化问题?还是现在还为时过早,我需要训练更多的时间?

0 个答案:

没有答案