应用错误收集

时间：2013-11-12 20:40:59

标签： artificial-intelligence reinforcement-learning

我在概念中理解它。你有一个代理和一个环境。然后你有一组状态，每个状态都有一个值。然后代理人选择“探索”或“利用”并根据发生的事情修改它的知识。

我的问题是我似乎无法弄清楚如何将其实际应用于代码或任何实际问题。每当我查阅它时，我最终得到的是相同的几个方程式，没有解释如何使用它们。

我正在尝试为俄罗斯方块写一个RL代理，我似乎无法弄明白。如果有人能够ELI5，那就太好了。

我如何知道作为一个州应该放什么？行动怎么样？调整值的实际数学是什么？这一切都让人感到困惑。

如果有人可以帮助我，我真的很感激。谢谢:)）

答案 0 :(得分：1)

在您不知道正确答案的情况下使用强化学习，但给出答案可以很容易地判断答案是否正确。

找到有限或平滑连续状态空间的问题，例如直升机控制。在这个特定的例子中，您可以使用简化的物理模拟来教授代理如何执行任务，而无需使用明确的规则将其灌输。

如果你谷歌申请强化学习俄罗斯方块，你会发现很多关于这个主题的文章。

要了解状态，行为等的构成，请阅读Sutton和Barton的“强化学习”。你可以在网上免费找到它。