应用错误收集

Monte Carlo RL - 为什么估算单个状态值的计算费用与状态数无关？

时间：2017-05-09 19:49:19

标签： machine-learning

在Sutton's book on RL中，根据蒙特卡洛政策评估，他在第111页提到note that the computational expense of estimating the value of a single state is independent of the number of states。但是，对于蒙特卡洛：

状态的平均回报是从首次遇到状态到直接结束时计算的
状态越多，剧集结束的时间越长，

那么我对这个陈述缺少什么？

1 个答案:

答案 0 :(得分：1)

7

如果每个州都是独立计算的，那么它应该清楚地表明，当您确定单个州的州值估计时，可能有多少不同的状态是不可能的。它的因为这个独立的性质，MC系统是有用的。

我相信你已经对大型国家系统将花费更长时间进行计算（整个系统）的事实感到困惑，但是因为用17赢得胜利的可能性并不会影响到这些州并不相互依赖。

编辑：我认为有一个统计数据或ML堆栈溢出页面，这个问题也可能更好地针对。