不同的 RL 库和论文倾向于混淆这些术语:代理、网络、模型和策略。
我正在尝试使用多代理 RL,每个代理使用多个网络,可能以分层方式。因此,我想事先澄清这些术语之间的区别。请阅读我目前对这些条款的理解,并告诉我我是否理解正确(如果有)。
我的理解如下:
- 代理:在给定环境中观察并采取行动以最大化奖励的“主体”。 (它可能有一个或多个神经网络,如果我选择非深度学习方法,甚至没有。)
- 模型:通过训练代理产生的数学模型。它不一定是神经网络,因为我可能只是使用线性回归方法。但是,由于我使用的是深度强化学习,因此模型意味着我工作中的一个或多个神经网络的组合。
- 神经网络:模仿人脑的数学模型。它是通过训练代理使用/产生的。一个代理可能有一个或多个,这取决于它的结构。 (例如,AC 网络在技术上使用两个网络。此外,像 AlphaStar 这样的复杂模型对单个代理使用 10 个以上的网络。)
- 策略:就马尔可夫决策过程而言,它可以简单地解释为在给定状态下选择动作的概率数组。对于深度强化学习,网络确定代理的策略(即概率)。
我感谢任何帮助/评论。谢谢。