应用错误收集

如何在OpenAI Baseline中使用经过培训的策略

时间：2018-11-27 18:32:29

标签： python deep-learning reinforcement-learning openai-gym baseline

我目前在OpenAI中使用PPO2基准来针对一些环境（山地连续车，两足步行者，乒乓球等）训练策略。我可以看到训练进行得很好，因为损失值正在减小。我什至指定了--save_path并且文件已正确保存。

但是现在我完全不知道该保存的文件可以做什么。我如何使用此政策。我的意图是使用这种训练有素的策略，让代理从不同的起始状态进行一些演示。

在任何一个论坛中我都找不到合适的答案。请帮忙。

0 个答案:

没有答案