我有一个500 * 500网格,有7个不同的惩罚值。我需要创建一个RL代理,其动作空间包含11个动作。 (左,右,上,下,4对角线方向,加速,减速和正常速度)。我怎么解决这个问题? 行动的可能性'被选中的是0.8。否则,选择随机动作。此外,惩罚值可以动态变化。
答案 0 :(得分:0)
看看Sutton incompleteideas.net/sutton/book/ebook/node15.html这一章,特别是他在后面部分的实验。你的问题似乎与N-Armed强盗类似,因为每个武器都会返回正常的奖励分配。虽然本章主要侧重于探索,但问题仍然适用。
另一种看待它的方法是,如果你的州确实返回正常的惩罚分布,你需要充分探索域以获得状态,行动元组的均值。这些案例的平均值是Q *,它将为您提供最优政策。
作为后续,如果状态空间太大或连续,可能值得用函数逼近器来研究泛化。虽然适用相同的收敛规则,但有些情况下函数近似会遇到问题。我想说这超出了本次讨论的范围。