我有一个具有连续状态空间和离散动作空间(两个动作,如0或1)的环境。这种情况下最好的RL算法是什么?
答案 0 :(得分:1)
嗯,这取决于奖励结构;状态和动作空间本身并不能确定问题的难易程度,而且还不能说出一种好的算法。我将首先尝试public function parent() {
return $this->belongsTo('Categorias','submenu');
}
public function submenu(){
return $this->hasMany('App\Categorias','submenu');
}
public function submenu(){
return $this->hasMany('App\Categorias', 'id', 'submenu');
}
。如果它不起作用,我将尝试DQN
或A2C
。如果它们也不起作用,我将尝试A3C
。
如果它们都不起作用,则需要提供有关环境的更多信息。也许它需要一种特殊的勘探技术。
您可以在Ray documentation上找到有关它们的非常高级的描述。链接上提供了相应论文的链接及其代码。