为俄罗斯方块加强学习

时间:2017-01-22 14:13:42

标签: machine-learning reinforcement-learning

我得到了如何做到这一点的要点,但我似乎无法理解如何保存(状态,值)对具有如此多不同状态的俄罗斯方块,使用哈希映射不应该因为内存本地工作。也许你可以将不同的状态映射到一个单独或是否有另一个技巧?或者我对此有错误的想法?

1 个答案:

答案 0 :(得分:0)

基于表格的RL无法扩展到大状态空间 - 您完全正确。这就是使用近似的原因,两者都非常简单,如将状态映射到值的线性模型,以及非常复杂的,如深度(有时是周期性)神经网络(深度Q网络等)。换句话说,不是使用映射状态 - >值,而是通过放置(例如对于Q值)Q(状态|参数)=值来优化这两者之间的功能依赖关系,并进行优化参数最适合观察到的实际状态/值对。值得注意的是,这不仅仅是关于记忆,如果你采用表格方法,你实际需要观察所有状态以获得一个好的模型,而使用功能/近似方法 - 你可能是能够找到可以利用的状态空间的实际结构。