强化学习:为连续行动和连续状态空间选择离散化步骤和性能指标的困境

时间:2016-04-07 09:56:50

标签: machine-learning artificial-intelligence reinforcement-learning

我正在尝试为控制系统编写自适应控制器,即使用Q学习的电源管理系统。我最近为推车杆系统实施了玩具RL问题,并根据Andrew NG的说明制定了直升机控制问题。我理解在这种情况下价值函数逼近是如何必要的。然而,这两个流行的例子都具有非常少量的可能的离散动作。我有三个问题:

1)如果您没有少量离散行动,处理此类问题的正确方法是什么?我的行为和状态的维度似乎已经被炸毁,学习看起来很糟糕,这让我想到了下一个问题。

2)如何衡量代理商的表现?由于奖励随动态环境而变化,因此在每个时间步骤我都无法决定连续RL代理的性能指标。与gridworld问题不同,由于巨大的状态 - 动作对,我无法检查Q值表,我怎么知道我的行为是最优的?

3)因为我有一个随时间演变的模型。状态= [Y,U]。 Y [t + 1] = aY [t] + bA,其中A是动作。 为操作A选择离散化步骤也会影响我对状态变量Y进行离散化的准确程度。如何选择离散化步骤? 非常感谢!

2 个答案:

答案 0 :(得分:3)

您可以使用连续动作强化学习算法,完全避免离散化问题。我建议你看看CACLA。 至于表现,您需要在关闭学习的情节中测量您的代理人累积的奖励。由于您的环境是随机的,因此需要进行多次测量并对其进行平均。

答案 1 :(得分:2)

查看政策搜索算法。基本上,他们直接学习没有显式值函数的参数策略,从而避免了为连续动作逼近Q函数的问题(例如,不需要动作空间的离散化)。

最简单,最早的策略搜索算法之一是策略渐变。查看here,了解有关该主题的快速调查。关于政策搜索的调查here(目前,有更多近期技术,但这是一个非常好的起点)。 在控制问题的情况下,你可以看到一个非常简单的玩具任务Linear Quadratic Gaussian Regulator (LQG)Here您可以找到包含此示例的讲座,还可以找到政策搜索和政策渐变的介绍。

关于第二点,如果您的环境是动态的(即转换功能的奖励功能(或两者)随时间而变化),那么您需要查看非静态策略。这在RL中通常是一个更具挑战性的问题。