deep-learning - 使用强化学习的多主体连续空间路径查找的最佳算法

时间：2019-06-24 05:05:08

标签： deep-learning artificial-intelligence pytorch reinforcement-learning multi-agent

我正在做一个项目，在多代理场景中，我需要在连续空间中找到从1点到另一点的最佳优化路径。我正在寻找最适合使用强化学习解决此问题的算法。我曾尝试过“针对混合合作竞争环境的多主体行动者批评家”，但似乎并没有达到10000个埃皮西多的目标。我如何改善此算法，或者有其他任何算法可以帮助我。

答案 0 :(得分：0)

多主体强化学习非常难以掌握，并且尚未证明对一般情况有效。

问题是，在多主体中，从每个个体的角度来看，环境变得不稳定。这意味着代理动作无法直接映射到状态，因为其他代理正在单独执行动作，这会“混淆”所有代理。这里有深入的多主体研究集合：https://github.com/LantaoYu/MARL-Papers

如果您希望采用您提到的演员批评方法，我建议您进一步研究此方法：https://arxiv.org/pdf/1706.02275.pdf如果您想完善多代理演员评论（ MADDPG）