我有一个关于C,H和lambda参数化的问题:“A Sparse Sampling Algorithm for Near-Optimal Planning in Large Markov Decision Processes”(或者对于强化学习,特别是lambda有一些一般知识的人),在第5页。
更确切地说,我没有看到参数化H,C或lambda是否依赖于诸如奖励的稀疏性或距离之类的因素的任何迹象,因为环境可能在未来的任何数量的步骤中得到奖励。
例如,假设有一个环境需要一串7个动作才能从平均起始状态获得奖励,另一个需要2个动作。在规划树木时,很明显,考虑到状态空间的通常指数分支,C(样本的大小)和H(地平线长度)应该取决于这些奖励与当前状态的距离。对于距离平均状态2步的那个,例如,H = 2就足够了。类似地,C应该依赖于奖励的稀疏性,也就是说,如果有1000个可能的状态并且只有其中一个具有奖励,则C应该高于每5个状态发现奖励(假设多个状态给出)相同的奖励与目标导向的问题相比)。
所以问题是,我的假设是正确的,还是我对采样错过了什么?链接pdf第5页的那些定义没有提及对分支因素或奖励稀疏性的任何依赖。
感谢您的时间。