我一直在尝试了解AWS中的强化学习框架如何工作。在使用RAY进行版本控制时遇到了许多问题之后,我最近开始使用COACH框架。我仍然不明白如何正确配置预设。训练循环有时会一直持续下去,并且在我期望的时候不会停止。我也不确定如何确定每个情节的步数,以使模型不会继续训练。
我尝试弄乱了一些预设配置,尤其是DQN算法。我更改了以下参数
String
这是DQN的预设:
final Gson gson = new GsonBuilder()
.registerTypeAdapter(/*real.package.here.*/String.class, (JsonSerializer</*real.package.here.*/String>) (s, type, context) -> new JsonPrimitive(s.toString())) // whatever the real Java string is obtained
.create();
问题主要在于图调度。
我希望能够建立一个训练循环,该循环在每个情节中都有固定的步数,并且不会持续到无限远。我也希望控制剧集的数量。
答案 0 :(得分:-1)
请查看我们公开的Github存储库中的RL示例:https://github.com/awslabs/amazon-sagemaker-examples/tree/master/reinforcement_learning
有一些基于教练的示例可能会在这里有所帮助。