如何在OpenAI Baseline中使用经过培训的策略

时间:2018-11-27 18:32:29

标签: python deep-learning reinforcement-learning openai-gym baseline

我目前在OpenAI中使用PPO2基准来针对一些环境(山地连续车,两足步行者,乒乓球等)训练策略。我可以看到训练进行得很好,因为损失值正在减小。我什至指定了--save_path并且文件已正确保存。

但是现在我完全不知道该保存的文件可以做什么。我如何使用此政策。我的意图是使用这种训练有素的策略,让代理从不同的起始状态进行一些演示。

在任何一个论坛中我都找不到合适的答案。请帮忙。

0 个答案:

没有答案