应用错误收集

Unity3D有一个用于强化学习的程序包，称为ML-agents，我正在与之一起使用以了解其组件。对于我的项目，我处于一种情况，我需要编写自己的逻辑来从Unity3D中设置奖励（不是使用C＃逻辑来“ addReward”，而是编写Python代码来从Unity中设置奖励）。

我想知道我是否可以使用ML-agents软件包提供的Python API来使用env观察结果，并使用Unity之外的自定义逻辑更新奖励（并发送回Unity）？以及在哪里寻找呢？

换句话说（示例）。在3DBall示例中，在Unity3D中设置了奖励逻辑，这样，如果停留在平台上的球会获得正向奖励，如果球从平台上掉落，则会获得负向奖励。通过使用C＃在Unity3D中实现此逻辑，并确定Ball与平台的位置（矢量位置）。对于每个动作，代理都调用env.step（action）并获取（reward，state ...）的元组。如果我想在Unity之外编写逻辑该怎么办？例如，如果我想编写一个Python程序（从Unity3D中读取观测值）并更新奖励而不使用Unity奖励逻辑？这可能吗？我不知道此选项在ML-agents的Python API中的位置。

目前，我正在考虑在我在Unity3D中使用C＃设置奖励的行之间运行一个外部python程序，但是我想知道这是否过于复杂并且有一个更简单的解决方案。

任何帮助将不胜感激。

问候圭多

从ml-agents软件包中的Unity3D中奖励逻辑

1 个答案: