标签: algorithm machine-learning montecarlo reinforcement-learning
我一直在阅读强化学习:Sutton和Barto的介绍(2012) 我遇到了批处理学习方法。不幸的是,书中没有很好地描述这种方法 关于批量学习的科学文章对我来说还是太先进了。
有人可以详细说明这种方法,并为这种强化学习方法提供示例性伪算法吗?