我们知道q学习需要大量的计算:
The huge amount of states in q-learning calculation
对于游戏AI,它需要比OX游戏,GO游戏更多的q值。
如何计算这些大量的q值?
谢谢。
答案 0 :(得分:0)
MCTS实际上并没有减少对q值的任何计算。
对于非常简单的Atari游戏AI,它需要远远超过3 ^(19x19)q值。
检查深度q网络,它解决了您的问题。
我们可以用神经网络来表示我们的Q函数 状态(四个游戏画面)和动作作为输入并输出 相应的Q值。或者,我们只能拍摄游戏画面 作为输入并输出每个可能动作的Q值。这个 方法的优势在于,如果我们要执行Q值 更新或选择Q值最高的动作,我们只需要做一个 通过网络前进并具有所有动作的所有Q值 立即可用。
https://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/