深度思维如何减少Atari游戏的Q值计算?

时间:2019-06-10 03:38:59

标签: sql c tensorflow machine-learning reinforcement-learning

我们知道q学习需要大量的计算:

The huge amount of states in q-learning calculation

对于游戏AI,它需要比OX游戏,GO游戏更多的q值。

如何计算这些大量的q值?

谢谢。

1 个答案:

答案 0 :(得分:0)

MCTS实际上并没有减少对q值的任何计算。

对于非常简单的Atari游戏AI,它需要远远超过3 ^(19x19)q值。

检查深度q网络,它解决了您的问题。

  

我们可以用神经网络来表示我们的Q函数   状态(四个游戏画面)和动作作为输入并输出   相应的Q值。或者,我们只能拍摄游戏画面   作为输入并输出每个可能动作的Q值。这个   方法的优势在于,如果我们要执行Q值   更新或选择Q值最高的动作,我们只需要做一个   通过网络前进并具有所有动作的所有Q值   立即可用。

https://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/