我有一个实时域,我需要为N个actor分配一个动作,包括将一个O对象移动到L个位置之一。在每一个时间步,我都会获得奖励R,表明所有参与者的整体成功。
我有10个演员,50个独特的对象和1000个位置,所以对于每个演员,我必须从500000个可能的动作中进行选择。此外,我可能会考虑50个环境因素,例如每个物体与墙壁的接近程度,或者它与演员的接近程度。这导致每个演员有2500万个潜在行动。
几乎所有的强化学习算法似乎都不适合这个领域。
首先,它们几乎都涉及评估给定状态下每个动作的预期效用。我的状态空间是巨大的,所以即使我使用函数逼近,使用像Q学习这样原始的东西来收集策略也需要永远。即使我可以,也需要很长时间才能在每个时间步骤中找到最佳行动。
其次,大多数算法假设每个演员获得一个奖励,而我给予的奖励可能会被一个或多个演员的错误所污染。
我该如何处理这个问题?我没有找到像这样的域名的代码,而且我在多演员强化学习算法上发现的一些学术论文没有提供足够的细节来重现所提出的算法。
答案 0 :(得分:4)
N = 10名演员 O = 50个对象
L = 1K位置
S = 50个特征
据我了解,你有一个仓库,里面有N个演员,O个物品,L个地点和一些墙壁。目标是确保每个O对象在最短的时间内到达L个位置中的任何一个。动作空间包括决定哪个actor应该移动哪个对象在任何时间点到哪个位置。状态空间由大约50个X维环境因子组成,其中包括诸如演员和物体与墙壁之间的接近度以及相互之间的特征。因此,乍一看,您有X S (OL) N 动作值,大多数动作维度是离散的。
所述问题不是强化学习的好选择。然而,尚不清楚环境因素究竟是什么以及有多少限制是自我强加的。所以,让我们来看一个相关但又不同的问题。
我们看一个演员。比如说,它知道它在仓库中的位置,其他9个角色的位置,50个物体的位置以及1000个位置。它希望获得最大的奖励,当50个对象中的每一个都在1000个位置之一时发生。
假设我们在仓库中有一个P维表示。每个位置都可以由焦点中的演员,其他演员,对象或位置占据。动作是选择一个对象和一个位置。因此,我们有一个4 P 维状态空间和一个P 2 维动作空间。换句话说,我们有一个4 P P 2 维值函数。通过进一步尝试表示,对不同参数使用不同的精度编码,并使用选项 2,可能会将问题带入实际领域。
有关在复杂空间设置中学习的示例,我建议您阅读Konidaris论文1和2。
1 Konidaris,G.,Osentoski,S。& Thomas,P.,2008。使用傅立叶基础的强化学习中的值函数逼近。计算机科学系教师出版系列,第101页。
2 Konidaris,G。& Barto,A.,2009。使用技能链进行连续强化学习领域的技能发现。 Bengio等,编辑。神经信息处理系统的进展,18,pp.1015-1023。