使用2D动作和2D状态进行Q学习

时间:2016-10-18 18:17:13

标签: machine-learning tensorflow artificial-intelligence reinforcement-learning

我的问题如下:

代理商应在每个州调整水流量和风机速度,以便电厂锅炉接收双重状态的反馈:当前温度,排放量。

如果我的经纪人有一个行动元组和状态元组,这是否意味着我应该将我的q学习问题分解为2,其中1个代理将具有用于水/温度环境的Q和R矩阵以及另一个代理对于风扇速度/排放环境的数量?或者有没有办法为最初描述的代理表示R和Q矩阵?

1 个答案:

答案 0 :(得分:1)

状态和行动是多维的是正常的。您所做的是让您的代理人了解当前温度和排放量的所有组合的水流量和风扇速度的所有组合的值。如果这使得桌子变得笨重,那么你将需要近似它,这本身就是一个完整的领域。