强化学习:代理 vs 网络 vs 模型 vs 策略

时间:2021-05-25 02:15:21

标签: deep-learning neural-network reinforcement-learning

不同的 RL 库和论文倾向于混淆这些术语:代理、网络、模型和策略。 我正在尝试使用多代理 RL,每个代理使用多个网络,可能以分层方式。因此,我想事先澄清这些术语之间的区别。请阅读我目前对这些条款的理解,并告诉我我是否理解正确(如果有)。

我的理解如下:

  • 代理:在给定环境中观察并采取行动以最大化奖励的“主体”。 (它可能有一个或多个神经网络,如果我选择非深度学习方法,甚至没有。)
  • 模型:通过训练代理产生的数学模型。它不一定是神经网络,因为我可能只是使用线性回归方法。但是,由于我使用的是深度强化学习,因此模型意味着我工作中的一个或多个神经网络的组合。
  • 神经网络:模仿人脑的数学模型。它是通过训练代理使用/产生的。一个代理可能有一个或多个,这取决于它的结构。 (例如,AC 网络在技术上使用两个网络。此外,像 AlphaStar 这样的复杂模型对单个代理使用 10 个以上的网络。)
  • 策略:就马尔可夫决策过程而言,它可以简单地解释为在给定状态下选择动作的概率数组。对于深度强化学习,网络确定代理的策略(即概率)。

我感谢任何帮助/评论。谢谢。

0 个答案:

没有答案