DQN究竟是如何学习的?

时间:2021-02-25 17:04:47

标签: python machine-learning artificial-intelligence reinforcement-learning openai-gym

我在 gym 中创建了我的自定义环境,这是一个迷宫。我使用带有 DQNBoltzmannQPolicy 模型。 它可以很好地训练以下变量:

  • 代理位置
  • 到终点的距离
  • 端点位置
  • 它可以移动到哪些方向

所以我不给它图片或任何东西。如果我在相同的环境(相同的迷宫,不改变墙壁的位置)中训练和测试它,它可以轻松解决。但是如果我在没有训练的情况下将它引入一个完全不同的环境(迷宫),那么它不知道该怎么做。不知道是我的代码有问题,还是DQN只是为了解决同样的环境。

0 个答案:

没有答案