应用错误收集

学习分层强化任务的结构

时间：2010-09-27 03:10:13

标签： artificial-intelligence machine-learning reinforcement-learning

我一直在研究层次强化学习问题，虽然很多论文提出了学习策略的有趣方法，但他们似乎都假设他们事先知道描述域中行为的图形结构。例如，Dietterich的The MAXQ Method for Hierarchial Reinforcement Learning描述了一个简单的Taxi域的动作和子任务的复杂图，但不是如何发现这个图。您将如何了解此图表的层次结构，而不仅仅是政策？

3 个答案:

答案 0 :(得分：1)

在Dietterich的MAXQ中，图表是手动构建的。它被认为是系统设计师的任务，就像提出表示空间和奖励功能一样。

根据您要实现的目标，您可能希望自动分解状态空间，了解相关功能或将经验从简单任务转移到更复杂的任务。

我建议你开始阅读那些引用你所链接的MAXQ的论文。在不知道你想要达到什么目的的情况下，我不能做到非常规范（而且我并不是所有当前RL研究的重点），但你可能会在罗，贝尔和罗兰的工作中找到相关的想法。 McCollum或Madden＆amp; amp;豪利

答案 1 :(得分：1)

本文介绍了一种很好的起点：

<磷>氮。 Mehta，S。Ray，P。Tadepalli和T. Dietterich。 MAXQ层次结构的自动发现和传输。在国际机器学习会议上，2008年。

http://web.engr.oregonstate.edu/~mehtane/papers/hi-mat.pdf

答案 2 :(得分：0)

说这个代理人正在做着事情。你不知道它的内部目标（任务图）。你如何推断其目标？

顺便说一句，这是不可能的。就像我不可能知道当你放下那个盒子时你有什么目标：也许你累了，也许你看到了一只杀手蜂，也许你不得不撒尿......

您正在尝试为代理的内部目标结构建模。为了做到这一点，你需要一些指导，指出什么是可能的目标集以及如何通过行动来表示。在研究文献中，这个问题已经在“计划识别”这个术语下进行了研究，并且也使用了POMDP（部分可观察马尔可夫决策过程），但是这两种技术都假设你对其他代理人的目标有所了解。

如果你对它的目标一无所知，你所能做的就是推断出上述模型中的一个（这就是我们人类所做的事情。我认为其他人的目标与我一样。我从不认为，“哦他放弃了他的笔记本电脑，他必须准备好打下一个鸡蛋“cse，他是一个人。”或者将它塑造成一个黑盒子：一个简单的状态 - 动作功能然后根据需要添加内部状态（嗯，有人必须有写了一篇论文，但我不知道是谁。