标签: reinforcement-learning
我正在为战斗环境做一些RL工作。我面临着多个参数连续动作空间的问题。
动作空间可以这样描述:
动作1:MoveTo(x, y);这意味着代理将移动到目标坐标(x,y)。 x和y是连续的。
MoveTo(x, y)
动作2:Shoot(x, y, z);这意味着特工将朝(x,y,z)方向射击。 x / y / z也是连续的。
Shoot(x, y, z)
这个动作空间是离散的还是连续的?每个动作都有多个参数,是否有一些算法可以解决这个问题?或一些类似的环境解决方案。
任何建议将不胜感激。