应用错误收集

简而言之，我训练了一个回归模型（监督学习）进行预测。我想根据这些预测来训练特工在环境中行动（强化学习）。如何混合两者？这个想法是，回归模型可以在探员的探索过程中实时做出预测，而探员可以将这些预测用作其学习算法的观察结果。这个概念叫什么？它是如何工作的？