如何处理强化学习中的同步动作

时间:2020-08-09 19:21:23

标签: reinforcement-learning

我正在尝试使用强化学习来解决涉及大量同时动作的问题。例如,探员将能够执行可能导致单个动作的动作(例如射击),或者可能导致多个动作,例如在射击时跳跃,在空手道斩首时向右转而进行射击等。当所有可能的动作时结合起来,我得到一个巨大的动作数组,例如1 x2000。所以我的LSTM网络输出数组将具有该大小。当然,我将使用字典来解码操作数组以应用操作。所以我的问题是,该动作数组是否太大?这是处理同时动作的方法吗?还有其他方法吗?随意链接您所看到的任何具体示例。谢谢。