应用错误收集

我想设计一个强化学习系统。我有行动，只有一个状态，所以我的问题类似于多臂匪徒问题。我有一个很好的函数可以预测奖励，我们称它为（f）。（f）是有监督的机器学习模型。但是要获得真正的奖励，我必须等待24小时，并且相同动作的奖励会随着时间而变化-因此问题是不稳定的。我怎样才能将奖励功能（f）用作模拟器，而不是一整天地玩很多游戏，并将该模拟器与期望值/奖励功能分开，所以我可以假装模拟器是真正的奖励，但它却是不会产生与价值函数相同的结果？。

或者，如果我无法进行此模拟，那么如果我在两次游戏之间等待24小时，我如何估计我的强化学习系统收敛所需的时间？

如何模拟我的强化学习环境？

0 个答案: