当访问真实环境困难时,如何应用无模型深度强化学习?

时间:2018-04-24 12:19:25

标签: reinforcement-learning

深度强化学习在将其应用于具有高度动态性质的现实问题时非常有用。很少有例子可以列为金融,医疗保健等。但是当涉及到这些类型的问题时,很难有一个模拟环境。那么有什么可以做的事情呢?

1 个答案:

答案 0 :(得分:2)

首先让我评论几个概念,试图根据您的意见为您提供未来的研究方向:

  • 可能“预测”一词不适合描述强化学习所解决的问题。从某种意义上说,RL需要做一个内部预测流程来选择长期的最佳行动。但问题解决了代理人在环境中选择行动。因此,如果您的问题是预测问题,也许其他技术比RL更合适。
  • 在表格方法和深度Q学习之间,还有许多其他方法可能更适合您的问题。它们可能不那么强大但易于使用(更稳定,参数调整更少等)。您可以将Q学习与其他函数逼近器(比深度神经网络更简单)结合起来。一般来说,最好的选择是能够解决问题的最简单的选择。
  • 我不知道如何用第一人称视觉来模拟人类活动的问题。事实上,我并不完全了解问题设置。

关于在不访问模拟环境的情况下应用RL的原始问题,正如我之前在评论中所说,如果你有足够的数据,你可能会应用RL算法。我假设您可以存储环境中的数据,但您无法轻松与其进行交互。这是典型的,例如,在医疗领域,其中存在许多关于[患者状态,治疗,下一患者状态]的数据,但是您不能通过应用随机治疗与患者交互。在这种情况下,有一些事实需要考虑:

  • RL方法通常消耗大量数据。当与深网结合时尤其如此。需要多少数据完全取决于问题,但如果您的环境很复杂,请准备好存储数百万个元组[状态,操作,下一个状态]。
  • 应使用包含一些探索性操作的策略收集存储的元组。 RL算法将尝试在数据中包含的动作中找到最佳可能的动作。如果代理可以与环境交互,则应该选择探索性操作来找到最佳的代理。同样,如果代理无法进行交互,而是预先收集数据,则此数据也应包含探索性操作。论文Neural Fitted Q Iteration - First Experiences with a Data Efficient Neural Reinforcement Learning MethodTree-Based Batch Mode Reinforcement Learning可能有助于理解这些概念。