我使用ray tune
在自定义环境中训练了DQN模型,我对它的训练策略感到满意。现在,我想对其进行部署,以便可以利用这一训练有素的策略进行决策。
我检查了cartpole_server.py
和cartpole_client.py
示例中的策略服务,但无法弄清楚如何使用已受过训练的策略,也无法从训练过程中创建的检查点中使用该方法,也无法从部署过程中选择腌制方法。我看到这些示例确实是在训练和服务同时开始的,但是从训练开始就是如此。
我想知道是否有用于策略服务的资源,可以通过加载检查点或腌制数据来获取actions
,从而为observations
提供服务,例如部署正常ML model
到Flask
等。