我一直在研究层次强化学习问题,虽然很多论文提出了学习策略的有趣方法,但他们似乎都假设他们事先知道描述域中行为的图形结构。例如,Dietterich的The MAXQ Method for Hierarchial Reinforcement Learning描述了一个简单的Taxi域的动作和子任务的复杂图,但不是如何发现这个图。您将如何了解此图表的层次结构,而不仅仅是政策?
答案 0 :(得分:1)
在Dietterich的MAXQ中,图表是手动构建的。它被认为是系统设计师的任务,就像提出表示空间和奖励功能一样。
根据您要实现的目标,您可能希望自动分解状态空间,了解相关功能或将经验从简单任务转移到更复杂的任务。
我建议你开始阅读那些引用你所链接的MAXQ的论文。在不知道你想要达到什么目的的情况下,我不能做到非常规范(而且我并不是所有当前RL研究的重点),但你可能会在罗,贝尔和罗兰的工作中找到相关的想法。 McCollum或Madden& amp;豪利
答案 1 :(得分:1)
本文介绍了一种很好的起点:
<磷>氮。 Mehta,S。Ray,P。Tadepalli和T. Dietterich。 MAXQ层次结构的自动发现和传输。在国际机器学习会议上,2008年。答案 2 :(得分:0)
说这个代理人正在做着事情。你不知道它的内部目标(任务图)。你如何推断其目标?
顺便说一句,这是不可能的。就像我不可能知道当你放下那个盒子时你有什么目标:也许你累了,也许你看到了一只杀手蜂,也许你不得不撒尿......
您正在尝试为代理的内部目标结构建模。为了做到这一点,你需要一些指导,指出什么是可能的目标集以及如何通过行动来表示。在研究文献中,这个问题已经在“计划识别”这个术语下进行了研究,并且也使用了POMDP(部分可观察马尔可夫决策过程),但是这两种技术都假设你对其他代理人的目标有所了解。
如果你对它的目标一无所知,你所能做的就是推断出上述模型中的一个(这就是我们人类所做的事情。我认为其他人的目标与我一样。我从不认为,“哦他放弃了他的笔记本电脑,他必须准备好打下一个鸡蛋“cse,他是一个人。”或者将它塑造成一个黑盒子:一个简单的状态 - 动作功能然后根据需要添加内部状态(嗯,有人必须有写了一篇论文,但我不知道是谁。