应用错误收集

强化学习是否适用于RANDOM环境？

时间：2018-10-10 16:32:28

标签： machine-learning reinforcement-learning

对于我们正在尝试解决的问题，强化学习（RL）的适用性有一个基本问题。

我们正在尝试将RL用于库存管理-需求完全是随机（它在现实生活中可能具有某种模式，但现在让我们假设我们被迫纯粹视为随机）。

据我了解，RL可以帮助学习如何玩游戏（例如下棋）或帮助机器人学习走路。但是所有游戏都有规则，OpenAI Gym的'cart-pole'也是如此-有一些“物理”规则来控制杆子何时倾斜倒下

对于我们的问题，没有规则-环境是随机变化的（产品要求）。

RL是否真的适用于这种情况？

如果可以，那么什么可以改善性能？

更多详细信息： -“环境”中仅有的两种刺激是产品“ X”的当前可用水平和当前需求“ Y” -“操作”是二进制的-我是否要订购数量“ Q”以补充或不添加（离散操作空间）。 -我们正在使用DQN和Adam优化器。

我们的结果很差-我承认我只训练了大约5,000或10,000-因为它是一个随机的环境，我应该让它继续训练几天吗？

谢谢你拉杰什

2 个答案:

答案 0 :(得分：2)

您说的是非平稳的随机的，所以，不，RL在这里并不是最好的。

强化学习假定您的环境稳定。在交互过程中，环境的基本概率分布（过渡和奖励函数）必须保持恒定。

可以肯定的是，RL和DRL可以处理一些稍微不稳定的问题，但在此方面仍很困难。马尔可夫决策过程（MDP）和部分可观察的MDP假定平稳。因此，基于价值的算法专门用于探索类似MDP的环境，例如SARSA，Q学习，DQN，DDQN，Dualling DQN等，将很难在非平稳环境中学习任何东西。您越倾向于使用基于策略的算法（例如PPO，TRPO或什至更好的无梯度算法（例如GA，CEM等），则这些算法不会尝试利用此假设的机会就越大。

您最好的选择是采用遗传算法等黑盒优化方法。

答案 1 :(得分：1)

可以通过将单个平均奖励输出替换为可能值的分布来处理随机性。通过引入一种新的学习规则，反映了从Bellman（平均）方程到其分布对等方的转换，the Value distribution approach能够超越所有其他可比较方法的性能。

https://deepmind.com/blog/going-beyond-average-reinforcement-learning/