可以强化学习代理学习离散分布

时间:2016-07-06 16:03:55

标签: reinforcement-learning

在网格世界中,如果我开始在初始策略之后采取行动,作为可用操作之间的离散分布。假设我在每个州有四个行动(北,南,东,西),现在我决定在每个州50%的时间我会选择行动"北"。 30%的时间我会选择行动"南"。 10%的时间行动"东部"并休息10%的行动" west"。它会对最优政策产生什么影响。如果我在行动中选择了统一的随机分布。我想更频繁地探索一个动作会让那个状态和动作对的q值快速收敛,它会更真实。但是,如果我探索一个动作,它的q值将会更多。请告诉我,如果我是对的。

1 个答案:

答案 0 :(得分:3)

如果您的发行版允许您进入您所在世界的任何州,那么当您的剧集数量接近无限时,将无效。也就是说,无论您从中获取行动的概率分布如何,您都将获得完全相同的最优策略(假设只有一个最优策略)。

当然这适用于理论,但在实践中你可能会注意到改变概率分布的另一个副作用。

假设您所处的世界只允许您选择。如果目标始终在左侧,并且选择动作的概率为99%,您将非常快速地获得最佳策略。如果选择动作的概率为1%,那么您将非常缓慢地获得最优策略。无论哪种方式,如果有足够的剧集,您将获得最优政策。

同样适用于电子贪婪方法,其中概率分布可能在剧集期间发生变化。