在监督学习模型上应用“强化学习”

时间:2019-07-11 10:03:06

标签: python linear-regression reinforcement-learning supervised-learning

是否可以在监督模型上使用“强化学习”或反馈循环?

我已经使用监督学习模型(更确切地说是线性回归模型)研究了机器学习问题,但我想通过创建<预测输出上的“ strong>反馈环”,即告诉算法在某些示例上是否出错。

据我所知,这基本上是强化学习的工作原理:该模型从正面和负面反馈中学习。

我发现我们可以使用 PyBrain 实施监督学习和强化学习算法,但是我找不到两者之间的联系方式。

2 个答案:

答案 0 :(得分:0)

大多数(或也许所有)迭代监督学习方法已经在预测的输出上使用了反馈回路。如果确实如此,此反馈非常有用,因为它为每个样本提供了准确的误差量信息。例如,以随机梯度下降为例,您可以在其中计算每个样本的误差以更新模型参数。

在强化学习中,反馈信号(即奖励)比在监督学习中受到的限制要大得多。因此,在调整某些模型参数的典型设置中,如果您有一组输入-输出(即训练数据集),则可能没有意义进行强化学习。

如果您正在考虑更具体的案例/问题,那么您应该在问题上更具体。

答案 1 :(得分:0)

强化学习已用于调整超参数和/或选择最佳的监督学习模型。上面还有一篇论文:“通过强化学习学习优化”。

阅读Pablo的答案,您可能想阅读“反向传播”。这可能是您要寻找的。