我想知道是否有关于采用新动作的RL问题的研究,即想像视频游戏,随着游戏的进行,代理商会学习更多的技能/操作,因此有更多可用的动作可供选择,因此该动作设置随着时间的推移而扩展。相关问题
State dependent action set in reinforcement learning
但是这个问题也没有足够的答案。谢谢!
答案 0 :(得分:0)
深度强化学习中的所有最新研究和论文均使用具有少量静态动作的环境。但是,您可以尝试几种方法来补偿具有可变操作空间的情况。
假设我们有一个游戏环境,代理可以执行不同的攻击。其中一种攻击,即火球,仅在游戏后期才能解锁。也许您需要做一些特殊的事情来解锁这种攻击,但是出于这种争论的目的,我们假设您的特工在游戏过程中的某个时候会解锁该能力。
This research paper讨论了在连续动作空间中的强化学习,这不是完全相同的东西,但可能会给您带来一些其他的想法。