reinforcement-learning - 如何处理强化学习中的同步动作

如何处理强化学习中的同步动作

时间：2020-08-09 19:21:23

标签： reinforcement-learning

我正在尝试使用强化学习来解决涉及大量同时动作的问题。例如，探员将能够执行可能导致单个动作的动作（例如射击），或者可能导致多个动作，例如在射击时跳跃，在空手道斩首时向右转而进行射击等。当所有可能的动作时结合起来，我得到一个巨大的动作数组，例如1 x2000。所以我的LSTM网络输出数组将具有该大小。当然，我将使用字典来解码操作数组以应用操作。所以我的问题是，该动作数组是否太大？这是处理同时动作的方法吗？还有其他方法吗？随意链接您所看到的任何具体示例。谢谢。

1 个答案:

答案 0 :(得分：1)

我也一直在尝试为我的问题做类似的事情。您可以查看以下论文：

Exploring Multi-Action Relationship in Reinforcement Learning
Imitation Learning with Concurrent Actions in 3D Games
Action Branching Architectures for Deep Reinforcement Learning
StarCraft II: A New Challenge for Reinforcement Learning

用可变动作强化学习
强化学习中的无效动作
强化学习代理中没有学习
如何让强化学习者学习无尽的跑步者？
强化学习-如何处理数量近似的各种动作
强化学习，步步为营
强化学习中的动作变化限制
如何使用Java制作强化学习代理？
强化学习的时间步骤
如何处理强化学习中的同步动作

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？