在Sutton's book on RL中,根据蒙特卡洛政策评估,他在第111页提到note that the computational expense of estimating the value of a single state is independent of the number of states
。但是,对于蒙特卡洛:
状态的平均回报是从首次遇到状态到直接结束时计算的
状态越多,剧集结束的时间越长,
那么我对这个陈述缺少什么?
答案 0 :(得分:1)
7
如果每个州都是独立计算的,那么它应该清楚地表明,当您确定单个州的州值估计时,可能有多少不同的状态是不可能的。它的因为这个独立的性质,MC系统是有用的。
我相信你已经对大型国家系统将花费更长时间进行计算(整个系统)的事实感到困惑,但是因为用17赢得胜利的可能性并不会影响到这些州并不相互依赖。
编辑: 我认为有一个统计数据或ML堆栈溢出页面,这个问题也可能更好地针对。