Question

我一直在尝试了解AWS中的强化学习框架如何工作。在使用RAY进行版本控制时遇到了许多问题之后，我最近开始使用COACH框架。我仍然不明白如何正确配置预设。训练循环有时会一直持续下去，并且在我期望的时候不会停止。我也不确定如何确定每个情节的步数，以使模型不会继续训练。

The reward in the image here keeps going up to 3.5 million which I do not want. And as you can see is very unstable

我尝试弄乱了一些预设配置，尤其是DQN算法。我更改了以下参数

String

这是DQN的预设：

final Gson gson = new GsonBuilder()
    .registerTypeAdapter(/*real.package.here.*/String.class, (JsonSerializer</*real.package.here.*/String>) (s, type, context) -> new JsonPrimitive(s.toString())) // whatever the real Java string is obtained
    .create();

问题主要在于图调度。

我希望能够建立一个训练循环，该循环在每个情节中都有固定的步数，并且不会持续到无限远。我也希望控制剧集的数量。

Answer 1

请查看我们公开的Github存储库中的RL示例：https://github.com/awslabs/amazon-sagemaker-examples/tree/master/reinforcement_learning

有一些基于教练的示例可能会在这里有所帮助。

如何正确配置教练预设

1 个答案: