强化学习目标数据

时间:2020-07-06 02:08:01

标签: reinforcement-learning robotics

我有一个关于强化学习的问题。假设我们有一个能够适应不断变化的环境的机器人。与本文1类似。当环境发生变化时(灯光变暗),机器人的性能会下降,它需要通过收集数据并再次运行Q算法来探索其新环境,以更新其策略以使其能够“适应”。新数据的收集和策略的更新大约需要4/5小时。我想知道我是否在同一个房间里有一群由这些机器人组成的团队,经历了相同的环境变化,是否可以加快数据收集速度,以便可以更快地更新策略?以便可以在1小时左右的时间内更新该策略,从而提高机器人的性能?

1 个答案:

答案 0 :(得分:0)

我相信您正在谈论横向扩展学习,就像并行培训多个代理一样。

A3C是一种算法,可通过并行且彼此独立地训练多个代理来实现。每个座席都有自己的环境,这使其可以获得与其余座席不同的体验,从而最终增加了座席集体经验的广度。最终,每个代理程序都会异步更新共享网络,然后您可以使用该网络来驱动主代理程序。

您提到要对所有并行代理使用相同的环境。我可以通过两种方式想到这一点:

  1. 如果您正在谈论代理之间的共享环境,那么这可能会加快速度,但是在性能方面您可能不会获得太多收益。在情节完成方面,您也很有可能会遇到问题-如果多个特工同时采取步骤,那么至少可以说您的过渡是一团糟。复杂性成本高,而收益却微不足道。

  2. 如果您要为每个代理克隆相同的环境,那么您最终将获得更快的速度和更广泛的经验,从而转化为性能。这可能是理智的事情。