通过新动作/扩展动作集进行强化学习

时间:2018-07-24 23:17:30

标签: reinforcement-learning

我想知道是否有关于采用新动作的RL问题的研究,即想像视频游戏,随着游戏的进行,代理商会学习更多的技能/操作,因此有更多可用的动作可供选择,因此该动作设置随着时间的推移而扩展。相关问题

State dependent action set in reinforcement learning

但是这个问题也没有足够的答案。谢谢!

1 个答案:

答案 0 :(得分:0)

深度强化学习中的所有最新研究和论文均使用具有少量静态动作的环境。但是,您可以尝试几种方法来补偿具有可变操作空间的情况。

假设我们有一个游戏环境,代理可以执行不同的攻击。其中一种攻击,即火球,仅在游戏后期才能解锁。也许您需要做一些特殊的事情来解锁这种攻击,但是出于这种争论的目的,我们假设您的特工在游戏过程中的某个时候会解锁该能力。

  1. 您可以将未锁定的动作添加到动作空间并分配一个 如果代理商试图采取具有 尚未解锁。因此,如果您的探员尝试使用火球及其 尚未解锁,他们将获得负面奖励。但是这个 代理商极有可能“学习”从不使用 火球,即使它已解锁。
  2. 您还可以通过添加新操作来改变操作空间 变得可用。在这种情况下,代理将没有 在行动空间内进行火球攻击,直到解锁为止。你会 必须改变您的ε(随机动作率)才能做更多 探索何时将新动作添加到动作空间。
  3. 您可以将代理的可用操作作为“状态”的一部分进行跟踪。 如果特工有能力在其中一部分使用火球 游戏,但不是游戏的另一部分,可以认为是 不同的状态,可能会通知代理。代表状态的向量对于每个不同的可解锁能力都可以具有二进制值,并且结合上面#1中提到的方法,您的代理可以学会有效地使用已解锁能力。

This research paper讨论了在连续动作空间中的强化学习,这不是完全相同的东西,但可能会给您带来一些其他的想法。