我正在使用深度强化学习来解决经典的迷宫转义任务,与here提供的实现类似,但以下三个主要区别除外:
我没有使用numpy
数组作为标准迷宫转义任务的输入,而是在每个步骤中为模型提供图像;该图像是1300 * 900 RGB图像,因此它不会太小。
奖励:
我调整了重播内存的参数,减小了重播内存缓冲区的大小。
关于实现,除上述各项外,我基本上不更改代理设置,而是实现了env
来包装我的自定义迷宫。
但是问题在于,累积奖励(成功逃脱的前200轮)不会增加:
逃离一个迷宫所需的步数也很稳定:
这是我的问题,我可以从哪个方面着手来优化问题?还是现在还为时过早,我需要训练更多的时间?