机器学习:因为与特定代理人比赛而学习的具体策略?

时间:2018-03-21 08:34:59

标签: machine-learning artificial-intelligence reinforcement-learning

首先,我发现难以制定我的问题,欢迎提供反馈。

我必须让机器学习代理人玩点和盒子。

我刚刚处于早期阶段,但提出了一个问题:如果我让我的机器学习代理(具体实施)与自己的副本对抗,以学习和改进它的游戏玩法,它不会只针对特定类型的游戏玩法做出策略吗?

如果让我的经纪人以任意方式玩耍和学习不同形式的其他代理人会更有意思吗?

1 个答案:

答案 0 :(得分:1)

让代理人通过与自己的副本进行比赛来学习的想法被称为自我游戏。是的,在自我发挥中,你有时可以看到代理人会“过度”反对他们的“训练伙伴”,从而导致学习过程不稳定。请参阅this blogpost by OpenAI(特别是“多人”部分),其中描述了此问题。

到目前为止,我在研究中看到的解决这个问题的最简单方法,确实是为了培养更多元化的培训合作伙伴。例如,可以通过将代理的多个过去版本的检查点存储在内存/文件中,并在每集开始时随机选择其中一个作为培训合作伙伴来完成。这大致是DeepMind(2016版)在原始AlphaGo Go程序自我训练过程中所做的,也在another blogpost by OpenAI中进行了描述。