我有这样的pipline:
attribute_est = Pipeline([
('jsdf', DictVectorizer()),
('clf', Ridge())
])
在那里,我传递的数据如下:
{
'Master_card' : 1,
'Credit_Cards': 1,
'casual_ambiance': 0,
'Classy_People': 0
}
我的模型不能很好地预测。现在我被提议:
您可能会发现很难找到效果良好的单个回归量 足够。一种常见的解决方案是使用线性模型来拟合线性 一些数据的一部分,并使用非线性模型来拟合残差 线性模型不适合。建立一个残差估计量 一个论证另外两个估算师。它应该使用第一个适合 原始数据和第二个适合第一个的残差。
残差估算器的含义是什么?你能给我一个例子吗?
答案 0 :(得分:0)
residual是真实数据值与某些估算器预测的值之间的误差。最简单的例子是线性回归,其中残差是对某些数据的最佳线性拟合与实际数据点之间的距离。线的最小二乘拟合最小化了这些平方残差的总和。
您给出的建议建议使用两个估算器。第一个将适合数据本身。在线性回归的情况下,这是一个最小二乘线性拟合,可能使用类似scikit-learn's linear regression model的东西。
然后,第二个估计器将尝试拟合残差,即,对数据的线性拟合与实际数据点之间的差异。在最小二乘的情况下,这实际上是对数据进行去除,然后拟合剩下的内容。如果您希望实际的数据是具有加性高斯噪声的线,则可以将其选为高斯分布。但是,如果您对基础噪声分布有所了解,那么将其用作第二个估算器。