强化学习与运筹学

时间:2018-08-10 13:11:03

标签: optimization mathematical-optimization reinforcement-learning operations-research

我想知道何时决定使用强化学习来解决以前通过数学优化方法解决过的问题-想想旅行推销员问题,工作计划或出租车共享问题。

由于强化学习旨在以与运营研究试图优化某个成本函数的结果类似的方式来最小化/最大化某个成本/奖励函数,因此我认为这是可以由两方之一解决的问题可能会被对方解决。但是,是这种情况吗?两者之间需要权衡吗?关于上述问题,我真的没有看到太多关于RL的研究,但我可能会误会。

如果有任何见解,将不胜感激!

2 个答案:

答案 0 :(得分:2)

这是我的两分钱。我认为,尽管两种近似都有一个共同的目标(最佳决策),但它们的基本工作原理是不同的。本质上,强化学习是一种数据驱动的方法,其中优化过程是通过代理与环境的交互(即数据)来实现的。另一方面,Optimization Research使用了其他方法,这些方法需要更深入地了解问题和/或施加更多假设。

存在许多问题,尤其是学术或玩具问题,可以同时应用RL和OR两种近似值。在现实世界的应用程序中,我想如果您能够满足OR所要求的所有假设,那么RL不会取得更好的结果。不幸的是,情况并非总是如此,因此RL在这种情况下更有用。

但是,请注意,有些方法尚不清楚RL和OR之间的区别。

答案 1 :(得分:1)

帕勃罗提供了很好的解释。我的研究实际上是在强化学习与模型预测控制之间。 MPC是一种基于轨迹优化的控制方法。强化学习只是一种数据驱动的优化算法,可用于您的上述示例。这是使用RL的traveling salesman problem的论文。

最大的区别实际上是这些:

强化学习方法

  • 不需要模型,而是一个“游乐场”来尝试环境中的不同操作并从中学习(例如,数据驱动方法)
  • 由于状态到动作的非线性映射,
  • 不能保证复杂问题的最优性。在多输入多输出问题中,RL使用非线性函数逼近器来解决任务。但是,一旦使用它们,就无法保证收敛
  • 非常适合难以或无法为其建立模型的问题。
  • 极难训练,但在线计算便宜
  • 固有的适应性。如果环境条件发生变化,RL通常可以通过学习新环境来适应。
  • 最糟糕的是,RL做出的决定无法解释。先进的RL算法由多个神经网络组成,因此,如果我们的RL汽车驾驶员驶下悬崖,几乎不可能确定为什么会这样做。

优化方法

  • 性能取决于型号。如果模型不好,优化将很糟糕。

  • 由于性能是基于模型的,因此识别“完美”模型非常昂贵。在能源行业,这种针对一个工厂的模型需要花费数百万美元,尤其是因为运行条件会随着时间而变化。

  • 保证最优性。关于这些方法可确保鲁棒性,可行性和稳定性的证明,已有很多论文发表。

  • 易于解释。使用优化方法的控制和决策很容易解释,因为您可以进入模型并计算执行某项操作的原因。在RL情况下,这通常是神经网络,完全是黑匣子。因此,对于安全敏感的问题,目前很少使用RL。

  • 取决于预测范围的在线计算非常昂贵,因为在每个时间步上,我们都必须根据当前状态优化轨迹。

相关问题