有关在2D迷宫中进行Q学习的问题

时间:2019-12-07 20:23:04

标签: artificial-intelligence reinforcement-learning maze q-learning

我刚刚阅读了有关Q学习的信息,但不确定我是否理解正确。我看到的所有示例都是迷宫中的老鼠,老鼠必须朝着奶酪移动,而奶酪不会移动。

我只是想知道在鼠标和奶酪都移动(因此一个特工追赶而另一个特工逃走)的情况下是否可以进行Q学习。

如果在这种情况下Q学习不起作用,那么我们还有其他有效的算法(贪婪或非贪婪)吗?

这种情况还存在正式/学术名称吗?我想搜索有关此问题的论文,但找不到其正式/学术名称。

非常感谢您!

1 个答案:

答案 0 :(得分:0)

所有 RL 算法都支持单个代理学习策略。在涉及多个角色(例如鼠标和奶酪)的问题中,一个角色(鼠标)将使用 RL 算法学习策略,而另一个角色(奶酪)将由某个非 RL 的 AI 引导。如果鼠标和奶酪都是 RL 代理,那么您正在查看多代理 RL。这是一个很好的框架:https://github.com/PettingZoo-Team/PettingZoo/

Q-learning 可能是最受初学者欢迎的 RL 技术,但只能解决非常简单的具有离散状态空间的玩具问题,例如 2D 迷宫。它在解决具有连续状态空间的问题时不是很有效,即使是简单的问题,例如 Cartpole。它可能会解决这些问题,但比其他 RL 方法需要更长的时间。然而,Q-learning 与神经网络相结合,可以非常强大,正如深度 Q 网络 (DQN) 和双 DQN 等 RL 方法所证明的那样。