我创建了一个简单的pacman游戏(无动力药丸)并使用Q学习算法训练它。现在我正在考虑使用一些有监督的学习算法来训练它。我可以通过收集状态信息创建数据集,然后将其存储在一些人类玩家采取的行动中,然后从中训练分类器。我的问题是我要进入正确的方向,是否正确的方法让pacman完美地沿着迷宫移动,因为它没有任何奖励系统?
答案 0 :(得分:1)
你会用什么状态?有监督的学习就是概括。您定义一些参数化模型(例如神经网络),然后从您的数据中学习/估计参数(例如权重)。然后你可以使用这个模型来预测某些东西。
如果你拥有的只是一个有限的状态列表(正如你在Q-Learning中所做的那样)并且只有一个"对"每个州的选择(无论人类老师说什么)。然后没有什么可以预测的。没有任何"轴可以沿着它推广"。你只需要一个简单的查找表和一个非常耐心的人来填补它。
如果您想应用有监督的学习,您需要提供一些先验知识。您需要某种相似性度量(例如,实值输入/输出 - 对于几乎相同的值具有固有的相似性)或创建多个实例。
例如,您可以在玩家周围使用3x3网格作为输入,并预测人类玩家在这种情况下上/下/左/右移动的概率。然后,您可以通过选择具有预测概率的随机移动来尝试模仿人类。显然,这种方法不会完美地移动pac-man,除非你使用一个非常大的网格(例如20x20),此时你几乎可以再次将1和0填充到一个简单的查找表中。