应用错误收集

你会用什么状态？有监督的学习就是概括。您定义一些参数化模型（例如神经网络），然后从您的数据中学习/估计参数（例如权重）。然后你可以使用这个模型来预测某些东西。

如果你拥有的只是一个有限的状态列表（正如你在Q-Learning中所做的那样）并且只有一个＆＃34;对＆＃34;每个州的选择（无论人类老师说什么）。然后没有什么可以预测的。没有任何＆＃34;轴可以沿着它推广＆＃34;。你只需要一个简单的查找表和一个非常耐心的人来填补它。

如果您想应用有监督的学习，您需要提供一些先验知识。您需要某种相似性度量（例如，实值输入/输出 - 对于几乎相同的值具有固有的相似性）或创建多个实例。

例如，您可以在玩家周围使用3x3网格作为输入，并预测人类玩家在这种情况下上/下/左/右移动的概率。然后，您可以通过选择具有预测概率的随机移动来尝试模仿人类。显然，这种方法不会完美地移动pac-man，除非你使用一个非常大的网格（例如20x20），此时你几乎可以再次将1和0填充到一个简单的查找表中。