应用错误收集

深度强化学习

时间：2020-03-19 08:30:13

标签： neural-network reinforcement-learning

我正在使用一种深度强化学习方法来将一个特工从一个初始点导航到一个目标点。场景中还有其他因素和障碍。

首要问题是神经网络将输入什么。

这些是我在初始场景中知道的元素：

代理的位置和初始速度。

其他特工的职位

障碍物的位置

在其他情况下，我已经阅读到神经网络的输入是图像（可能使用了传感器），但是在我的情况下，我不想使用视觉传感器。

2。我发现在强化学习算法中，数据集不是预先生成的，但是我们在训练时模拟了数据。

我没有发现如何利用上面提到的3个元素来创建数据集。

有人可以帮助我！预先谢谢你！

1 个答案:

答案 0 :(得分：1)

输入到神经网络：可以是您认为有助于您的代理做出决定的任何功能

您可以通过为每个动作生成奖励来模拟数据。奖励可以是正面的或负面的，它将作为神经网络的目标。经过多次培训，您的经纪人将学会以高回报获得回报。

相关问题

深度学习标记化

深度学习的数据增强

强化学习，深度学习和深度强化学习之间的区别是什么？

深度强化学习训练的准确性

深度强化学习（keras-rl）提前停止

建议实施深度强化学习算法

深度强化学习用于延迟学习环境的配置

深度强化学习

深度强化学习中的状态值

强化学习训练深度神经网络

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？