Monte Carlo RL - 为什么估算单个状态值的计算费用与状态数无关?

时间:2017-05-09 19:49:19

标签: machine-learning

Sutton's book on RL中,根据蒙特卡洛政策评估,他在第111页提到note that the computational expense of estimating the value of a single state is independent of the number of states。但是,对于蒙特卡洛:

  • 状态的平均回报是从首次遇到状态到直接结束时计算的

  • 状态越多,剧集结束的时间越长,

那么我对这个陈述缺少什么?

1 个答案:

答案 0 :(得分:1)

7

如果每个州都是独立计算的,那么它应该清楚地表明,当您确定单个州的州值估计时,可能有多少不同的状态是不可能的。它的因为这个独立的性质,MC系统是有用的。

我相信你已经对大型国家系统将花费更长时间进行计算(整个系统)的事实感到困惑,但是因为用17赢得胜利的可能性并不会影响到这些州并不相互依赖。

编辑: 我认为有一个统计数据或ML堆栈溢出页面,这个问题也可能更好地针对。