我正在使用一种深度强化学习方法来将一个特工从一个初始点导航到一个目标点。场景中还有其他因素和障碍。
首要问题是神经网络将输入什么。
这些是我在初始场景中知道的元素:
在其他情况下,我已经阅读到神经网络的输入是图像(可能使用了传感器),但是在我的情况下,我不想使用视觉传感器。
2。我发现在强化学习算法中,数据集不是预先生成的,但是我们在训练时模拟了数据。
我没有发现如何利用上面提到的3个元素来创建数据集。
有人可以帮助我! 预先谢谢你!
答案 0 :(得分:1)
输入到神经网络:可以是您认为有助于您的代理做出决定的任何功能
您可以通过为每个动作生成奖励来模拟数据。奖励可以是正面的或负面的,它将作为神经网络的目标。经过多次培训,您的经纪人将学会以高回报获得回报。