我想设计一个强化学习系统。我有行动,只有一个状态,所以我的问题类似于多臂匪徒问题。我有一个很好的函数可以预测奖励,我们称它为(f)。 (f)是有监督的机器学习模型。但是要获得真正的奖励,我必须等待24小时,并且相同动作的奖励会随着时间而变化-因此问题是不稳定的。我怎样才能将奖励功能(f)用作模拟器,而不是一整天地玩很多游戏,并将该模拟器与期望值/奖励功能分开,所以我可以假装模拟器是真正的奖励,但它却是不会产生与价值函数相同的结果?。
或者,如果我无法进行此模拟,那么如果我在两次游戏之间等待24小时,我如何估计我的强化学习系统收敛所需的时间?