标签: deep-learning
解决'是什么意思? openAI CartPole问题? Here它说解决意味着:
......当代理人获得的平均奖励至少为195.0而不是100 连续剧集。)
但同一环节的解决方案在85集后解决了?如果我们在100集中需要195的平均奖励,怎么能在85集中解决?
答案 0 :(得分:1)
如果你看一下“要解决的剧集”旁边的“总集”,它会说185,这是宣布它是“可靠”解决方案所需的最初85 + 100。所以最初在85集之后解决了这个问题并保持了100集的平均奖励。