标签: python deep-learning reinforcement-learning openai-gym baseline
我目前在OpenAI中使用PPO2基准来针对一些环境(山地连续车,两足步行者,乒乓球等)训练策略。我可以看到训练进行得很好,因为损失值正在减小。我什至指定了--save_path并且文件已正确保存。
但是现在我完全不知道该保存的文件可以做什么。我如何使用此政策。我的意图是使用这种训练有素的策略,让代理从不同的起始状态进行一些演示。
在任何一个论坛中我都找不到合适的答案。请帮忙。