是否可以在监督模型上使用“强化学习”或反馈循环?
我已经使用监督学习模型(更确切地说是线性回归模型)研究了机器学习问题,但我想通过创建<预测输出上的“ strong>反馈环”,即告诉算法在某些示例上是否出错。
据我所知,这基本上是强化学习的工作原理:该模型从正面和负面反馈中学习。
我发现我们可以使用 PyBrain 实施监督学习和强化学习算法,但是我找不到两者之间的联系方式。
答案 0 :(得分:0)
大多数(或也许所有)迭代监督学习方法已经在预测的输出上使用了反馈回路。如果确实如此,此反馈非常有用,因为它为每个样本提供了准确的误差量信息。例如,以随机梯度下降为例,您可以在其中计算每个样本的误差以更新模型参数。
在强化学习中,反馈信号(即奖励)比在监督学习中受到的限制要大得多。因此,在调整某些模型参数的典型设置中,如果您有一组输入-输出(即训练数据集),则可能没有意义进行强化学习。
如果您正在考虑更具体的案例/问题,那么您应该在问题上更具体。
答案 1 :(得分:0)
强化学习已用于调整超参数和/或选择最佳的监督学习模型。上面还有一篇论文:“通过强化学习学习优化”。
阅读Pablo的答案,您可能想阅读“反向传播”。这可能是您要寻找的。