我是强化学习代理人培训的新手。我已经阅读了有关PPO算法的信息,并使用稳定的基线库来训练使用PPO的代理。因此,我的问题是如何评估训练有素的RL代理商。考虑一下回归或分类问题,我有指标,如r2_score或准确性等。是否有这样的参数,或者我如何测试代理,得出结论,对代理进行了良好或不良的训练。
谢谢
答案 0 :(得分:0)
您可以使用随机策略运行环境,然后使用经过训练的PPO模型以相同的随机种子运行相同的环境。累积奖励的比较使您对经过训练的模型的性能有一些初步的想法。
由于使用的是PPO,因此您可能要检查渐变的轨迹和KL散度值,以查看是否具有定义良好的阈值来接受渐变步骤。如果接受的梯度步骤很少,则可能需要修改参数。
答案 1 :(得分:0)
评估RL代理的一种好方法是在环境中运行N次,然后计算N次运行的平均收益。
通常在整个培训过程中都执行上述评估步骤,并绘制出培训发生时的平均回报。您会期望平均收益会上升,这表明培训正在做一些有用的事情。
例如,在PPO paper的图3中,作者用训练步骤绘制了平均收益,以表明PPO的性能优于其他算法。