应用错误收集

时间：2019-07-11 10:03:06

标签： python linear-regression reinforcement-learning supervised-learning

是否可以在监督模型上使用“强化学习”或反馈循环？

我已经使用监督学习模型（更确切地说是线性回归模型）研究了机器学习问题，但我想通过创建<预测输出上的“ strong>反馈环”，即告诉算法在某些示例上是否出错。

据我所知，这基本上是强化学习的工作原理：该模型从正面和负面反馈中学习。

我发现我们可以使用 PyBrain 实施监督学习和强化学习算法，但是我找不到两者之间的联系方式。

答案 0 :(得分：0)

大多数（或也许所有）迭代监督学习方法已经在预测的输出上使用了反馈回路。如果确实如此，此反馈非常有用，因为它为每个样本提供了准确的误差量信息。例如，以随机梯度下降为例，您可以在其中计算每个样本的误差以更新模型参数。

在强化学习中，反馈信号（即奖励）比在监督学习中受到的限制要大得多。因此，在调整某些模型参数的典型设置中，如果您有一组输入-输出（即训练数据集），则可能没有意义进行强化学习。

如果您正在考虑更具体的案例/问题，那么您应该在问题上更具体。

答案 1 :(得分：0)

强化学习已用于调整超参数和/或选择最佳的监督学习模型。上面还有一篇论文：“通过强化学习学习优化”。

阅读Pablo的答案，您可能想阅读“反向传播”。这可能是您要寻找的。