强化学习是否适用于RANDOM环境?

时间:2018-10-10 16:32:28

标签: machine-learning reinforcement-learning

对于我们正在尝试解决的问题,强化学习(RL)的适用性有一个基本问题。

我们正在尝试将RL用于库存管理-需求完全是随机(它在现实生活中可能具有某种模式,但现在让我们假设我们被迫纯粹视为随机)。

据我了解,RL可以帮助学习如何玩游戏(例如下棋)或帮助机器人学习走路。 但是所有游戏都有规则,OpenAI Gym的'cart-pole'也是如此-有一些“物理”规则来控制杆子何时倾斜倒下

对于我们的问题,没有规则-环境是随机变化的(产品要求)。

RL是否真的适用于这种情况?

如果可以,那么什么可以改善性能?

更多详细信息: -“环境”中仅有的两种刺激是产品“ X”的当前可用水平和当前需求“ Y” -“操作”是二进制的-我是否要订购数量“ Q”以补充或不添加(离散操作空间)。 -我们正在使用DQN和Adam优化器。

我们的结果很差-我承认我只训练了大约5,000或10,000-因为它是一个随机的环境,我应该让它继续训练几天吗?

谢谢你 拉杰什

2 个答案:

答案 0 :(得分:2)

您说的是非平稳的随机的,所以,不,RL在这里并不是最好的。

强化学习假定您的环境稳定。在交互过程中,环境的基本概率分布(过渡和奖励函数)必须保持恒定。

可以肯定的是,RL和DRL可以处理一些稍微不稳定的问题,但在此方面仍很困难。马尔可夫决策过程(MDP)和部分可观察的MDP假定平稳。因此,基于价值的算法专门用于探索类似MDP的环境,例如SARSA,Q学习,DQN,DDQN,Dualling DQN等,将很难在非平稳环境中学习任何东西。您越倾向于使用基于策略的算法(例如PPO,TRPO或什至更好的无梯度算法(例如GA,CEM等),则这些算法不会尝试利用此假设的机会就越大。

您最好的选择是采用遗传算法等黑盒优化方法。

答案 1 :(得分:1)

可以通过将单个平均奖励输出替换为可能值的分布来处理随机性。通过引入一种新的学习规则,反映了从Bellman(平均)方程到其分布对等方的转换,the Value distribution approach能够超越所有其他可比较方法的性能。

https://deepmind.com/blog/going-beyond-average-reinforcement-learning/