我正在学习用于机器人的强化学习中的方法,并且遇到了进化策略的概念。但是我不明白RL和ES有何不同。有人可以解释吗?
答案 0 :(得分:1)
据我了解,我知道两个主要方面。
1)强化学习使用一种代理的概念,并且代理通过与环境的交互方式进行学习。在进化算法中,它们通常以许多“代理”开始,只有“强大的代理才能幸存”(具有最低损失特征的代理)。
2)强化学习代理可以学习积极和消极的行为,但是进化算法只能学习最优的知识,而消极或次优的解决方案信息将被丢弃和丢失。
示例
您要构建一种算法来调节房间的温度。
房间的温度是15°C,而您想要的温度是23°C。
使用强化学习,代理将尝试一系列不同的操作来增加和降低温度。最终,它得知提高温度会产生良好的回报。但它也得知降低温度会产生不好的回报。
对于进化算法,它从一堆随机代理开始,这些代理都具有要执行的一组预编程动作。然后,具有“升高温度”作用的物质得以生存,并转移到下一代。最终,只有提高温度的试剂才能幸存下来,并被视为最佳解决方案。但是,该算法不知道如果降低温度会发生什么情况。
TL; DR: RL通常是一个代理,尝试不同的操作,并学习并记住所有信息(正面或负面)。 EM使用许多猜测许多动作的代理,只有具有最佳动作的代理才能生存。基本上是解决问题的蛮力方式。
答案 1 :(得分:0)
我认为进化策略和强化学习之间的最大区别在于,ES是一种全局优化技术,而RL是一种局部优化技术。因此,RL可以收敛到收敛更快的局部最优值,而ES则收敛到全局最小值的慢点。