使用强化学习的多主体连续空间路径查找的最佳算法

时间:2019-06-24 05:05:08

标签: deep-learning artificial-intelligence pytorch reinforcement-learning multi-agent

我正在做一个项目,在多代理场景中,我需要在连续空间中找到从1点到另一点的最佳优化路径。我正在寻找最适合使用强化学习解决此问题的算法。我曾尝试过“针对混合合作竞争环境的多主体行动者批评家”,但似乎并没有达到10000个埃皮西多的目标。我如何改善此算法,或者有其他任何算法可以帮助我。

1 个答案:

答案 0 :(得分:0)

多主体强化学习非常难以掌握,并且尚未证明对一般情况有效。

问题是,在多主体中,从每个个体的角度来看,环境变得不稳定。这意味着代理动作无法直接映射到状态,因为其他代理正在单独执行动作,这会“混淆”所有代理。 这里有深入的多主体研究集合:https://github.com/LantaoYu/MARL-Papers

如果您希望采用您提到的演员批评方法,我建议您进一步研究此方法:https://arxiv.org/pdf/1706.02275.pdf如果您想完善多代理演员评论( MADDPG)