我使用n步Sarsa /有时Sarsa(lambda)
在用不同的epsilon计划进行实验后,我发现当我根据已采取的步骤数和最近10集的平均长度更改剧集期间,代理学得更快。
低步数/剧集开头=>低epsilon
大量的步骤/剧集结束=>高epsilon
这比从剧集到剧集的ε衰变要好得多。
理论是否允许这样做?
我想是的,因为所有州仍然定期访问。
答案 0 :(得分:2)
是的,即使您在每集中更新 epsilon 参数,SARSA算法也会收敛。要求是epsilon最终应该倾向于零或小值。
在您的情况下,如果您在每集中以较小的epsilon值开始并随着步数的增加而增加,那么我不太清楚您的算法将收敛到最优策略。我的意思是,在某些时候,epsilon应该减少。
“最佳”epsilon计划非常依赖于问题,并且没有一个在所有问题中都能正常运行的计划。所以,最后,它需要一些问题经验,可能需要一些试错调整。