应用错误收集

我很想知道：如果有多名经纪人接受过加固设置的培训，是否有办法让他们互相教学？

更具体地说，让我们假设一个典型的几个孩子的体育课：一些在任务A中很好，一些在B中，一些在C中。很多时候，最好的同伴向其他人展示它是如何完成的。他们使用“大师”的动作作为改善自己动作的指南。

应用于NN，可以在不同的环境中训练几种，提供不同的学习历史。那些在整体性能测量功能的子任务中表现更好的人可能会教会其他人如何提高他们在这个领域的表现。

因此，如果所有算法都经过100次强化循环，他们就会学到不同的优势。然后可以使用基准来评估谁在几个子任务中表现最佳。每次，其他人都“观察”最佳同行所做的事情，然后使用例如反向传播以使其行为与最佳对等体的行为更加匹配。

我刚刚开始了解目前正在使用SOTA的强化算法，因此我不确定这些算法的内部工作是否支持之类的反向传播，或者它们是否可以支持直接开箱即用。