应用错误收集

时间：2017-05-08 10:31:41

标签： artificial-intelligence reinforcement-learning q-learning function-approximation

我有一个500 * 500网格，有7个不同的惩罚值。我需要创建一个RL代理，其动作空间包含11个动作。（左，右，上，下，4对角线方向，加速，减速和正常速度）。我怎么解决这个问题？行动的可能性＆＃39;被选中的是0.8。否则，选择随机动作。此外，惩罚值可以动态变化。

答案 0 :(得分：0)

看看Sutton incompleteideas.net/sutton/book/ebook/node15.html这一章，特别是他在后面部分的实验。你的问题似乎与N-Armed强盗类似，因为每个武器都会返回正常的奖励分配。虽然本章主要侧重于探索，但问题仍然适用。

另一种看待它的方法是，如果你的州确实返回正常的惩罚分布，你需要充分探索域以获得状态，行动元组的均值。这些案例的平均值是Q *，它将为您提供最优政策。

作为后续，如果状态空间太大或连续，可能值得用函数逼近器来研究泛化。虽然适用相同的收敛规则，但有些情况下函数近似会遇到问题。我想说这超出了本次讨论的范围。