标签: reinforcement-learning
我正在尝试使用强化学习来解决涉及大量同时动作的问题。例如,探员将能够执行可能导致单个动作的动作(例如射击),或者可能导致多个动作,例如在射击时跳跃,在空手道斩首时向右转而进行射击等。当所有可能的动作时结合起来,我得到一个巨大的动作数组,例如1 x2000。所以我的LSTM网络输出数组将具有该大小。当然,我将使用字典来解码操作数组以应用操作。所以我的问题是,该动作数组是否太大?这是处理同时动作的方法吗?还有其他方法吗?随意链接您所看到的任何具体示例。谢谢。
答案 0 :(得分:1)
我也一直在尝试为我的问题做类似的事情。您可以查看以下论文: