简而言之,我训练了一个回归模型(监督学习)进行预测。我想根据这些预测来训练特工在环境中行动(强化学习)。如何混合两者?这个想法是,回归模型可以在探员的探索过程中实时做出预测,而探员可以将这些预测用作其学习算法的观察结果。这个概念叫什么?它是如何工作的?
我认为我的问题与此类似,但我正在考虑在强化学习算法中使用经过训练的模型:TensorFlow: What is the easiest way to incorporate predictions from one model in the training of a new model?