最近,我一直在阅读很多关于神经网络Q学习的内容,并考虑更新电厂锅炉中现有的旧优化系统,该锅炉由简单的前馈神经网络组成,近似于许多传感器的输出投入。然后输出链接到基于线性模型的控制器,该控制器以某种方式再次输出最佳动作,以便整个模型可以收敛到期望的目标。
识别线性模型是一项耗费任务。我考虑用Q函数的神经网络近似来将整个事物翻新为无模型Q学习。我画了一张图表,问你我是否在正确的轨道上。
我的问题:如果您认为我理解了这个概念,那么我的训练集应该由State Features vectors
从一侧Q_target - Q_current
和Dim Target As Worksheet
Dim x As Long
Set Target = ActiveWorkbook.Worksheets("Display")
'Write "I will not chew gum in class" 100 times
For x = 1 To 100
Debug.Print x & ". 9."
Next x
组成(这里我假设在那里' s增加奖励)以迫使整个模型朝向目标或我错过了什么?
注意:该图显示了上部旧系统与下部建议更改之间的比较。
编辑:状态神经网络是否保证体验重播?
答案 0 :(得分:1)
您可能只使用当前状态中所有操作的所有Q值作为网络中的输出层。绘制得很糟糕的图表是 here
因此,您可以优先考虑NN一次输出多个Q值的能力。然后,使用Q(s, a) <- Q(s, a) + alpha * (reward + discount * max(Q(s', a')) - Q(s, a)
导出的损失返回prop,其中max(Q(s', a'))
可以从输出层轻松计算。
如果您还有其他问题,请与我们联系。