连续状态空间和离散动作空间的最佳强化学习算法

时间:2019-10-25 00:32:50

标签: reinforcement-learning

我有一个具有连续状态空间和离散动作空间(两个动作,如0或1)的环境。这种情况下最好的RL算法是什么?

1 个答案:

答案 0 :(得分:1)

嗯,这取决于奖励结构;状态和动作空间本身并不能确定问题的难易程度,而且还不能说出一种好的算法。我将首先尝试public function parent() { return $this->belongsTo('Categorias','submenu'); } public function submenu(){ return $this->hasMany('App\Categorias','submenu'); } public function submenu(){ return $this->hasMany('App\Categorias', 'id', 'submenu'); } 。如果它不起作用,我将尝试DQNA2C。如果它们也不起作用,我将尝试A3C

如果它们都不起作用,则需要提供有关环境的更多信息。也许它需要一种特殊的勘探技术。

您可以在Ray documentation上找到有关它们的非常高级的描述。链接上提供了相应论文的链接及其代码。