是否可以为多个目标实现简单的q学习网络?

时间:2019-12-20 07:01:20

标签: q-learning

我一直在尝试解决Q学习问题,其中状态是地图中的网格,代理商必须到达5个网格(目标),每个网格都有各自的奖励。该问题的目标是找到代理以最佳奖励遍历所有5个目标的最佳路线。该代理可以执行6个动作,分别是前进,后退,左,右,上,下。我对Q学习如何实现单个目标有很好的了解,但是我遇到了这个问题。有谁知道如何通过简单的q网络成功解决此问题?

0 个答案:

没有答案