即使每次剧集中ε变化,Sarsa仍然会收敛吗?

时间:2018-04-07 16:17:25

标签: reinforcement-learning

我使用n步Sarsa /有时Sarsa(lambda)

在用不同的epsilon计划进行实验后,我发现当我根据已采取的步骤数和最近10集的平均长度更改剧集期间,代理学得更快。

低步数/剧集开头=>低epsilon
大量的步骤/剧集结束=>高epsilon

这比从剧集到剧集的ε衰变要好得多。

理论是否允许这样做?

我想是的,因为所有州仍然定期访问。

1 个答案:

答案 0 :(得分:2)

是的,即使您在每集中更新 epsilon 参数,SARSA算法也会收敛。要求是epsilon最终应该倾向于零或小值。

在您的情况下,如果您在每集中以较小的epsilon值开始并随着步数的增加而增加,那么我不太清楚您的算法将收敛到最优策略。我的意思是,在某些时候,epsilon应该减少。

“最佳”epsilon计划非常依赖于问题,并且没有一个在所有问题中都能正常运行的计划。所以,最后,它需要一些问题经验,可能需要一些试错调整。