政策梯度行动维度

时间:2019-10-03 09:01:30

标签: machine-learning neural-network artificial-intelligence gradient reinforcement-learning

我了解“策略梯度”中的操作空间应该是离散的,例如“上”,“左”,“什么都不做”。

我的环境是代理商,需要选择一个方向(360度),然后选择步数(10步)。

在这种环境下,特工可以选择动作空间中的3600种不同的动作,这将需要大量的时间来训练特工并浪费一些资源。

您能建议我如何处理这种情况吗?

可以将动作空间转换为连续随机变量吗?

1 个答案:

答案 0 :(得分:0)

我认为通过策略梯度,您不必使用离散操作,但可以使用连续变量。 仅DQN(深度Q网络/深度Q学习)需要离散操作。 (因为您必须从其中一种动作中进行选择。

在您的情况下,连续变量可以是: 网络输出1(值从0到1)乘以360 =角度 网络输出2(值从0到1)乘以10,转换为整数=步数