我正在做一个项目,该项目可以自动控制一组冷水机的开关和冰水出口温度(iwot)。我使用的算法是深度Q学习。
我的问题是,我有9个状态变量(冷凝器,蒸发器,冷却水,运行比率等),因此我无法在执行操作(打开/关闭一个特定的冷却器或调整iwot)后产生下一个状态。为这些变量构建一个模拟器。
但是,我确实有一种解决方法。我将实际的冰水出口温度(actual iwot)设置为控制值,并在启动冷却器时将操作比率设置为95%,并将实际iwot的入口温度和操作比率设置为0%。这种方法的缺点是,实际操作速度和操作比不能立即实现控制值,并且其他状态变量也应该更改,因为它们是相互关联的。
总而言之,强化学习能否根据接收到的动作来解决环境无法给出下一个状态的任务?
我不知道我是否朝着正确的方向前进,所以任何建议都会受到赞赏。
已添加: 我发现了两种有前途的方式,即多武装匪徒和情境匪徒,但我仍然需要一些建议,谢谢。