应用错误收集

不同的 RL 库和论文倾向于混淆这些术语：代理、网络、模型和策略。我正在尝试使用多代理 RL，每个代理使用多个网络，可能以分层方式。因此，我想事先澄清这些术语之间的区别。请阅读我目前对这些条款的理解，并告诉我我是否理解正确（如果有）。

我的理解如下：

代理：在给定环境中观察并采取行动以最大化奖励的“主体”。（它可能有一个或多个神经网络，如果我选择非深度学习方法，甚至没有。）
模型：通过训练代理产生的数学模型。它不一定是神经网络，因为我可能只是使用线性回归方法。但是，由于我使用的是深度强化学习，因此模型意味着我工作中的一个或多个神经网络的组合。
神经网络：模仿人脑的数学模型。它是通过训练代理使用/产生的。一个代理可能有一个或多个，这取决于它的结构。（例如，AC 网络在技术上使用两个网络。此外，像 AlphaStar 这样的复杂模型对单个代理使用 10 个以上的网络。）
策略：就马尔可夫决策过程而言，它可以简单地解释为在给定状态下选择动作的概率数组。对于深度强化学习，网络确定代理的策略（即概率）。

我感谢任何帮助/评论。谢谢。