噪声数据集的多项式回归

时间:2016-02-29 20:24:25

标签: python machine-learning scikit-learn

我想知道我是否能在问题上得到一些帮助。

我正在为我以前的实验室创建一个工具,它使用来自基于物理的机器(很多噪声)的数据,这些数据产生简单的x,y坐标。我想识别数据集的局部最大值,但是,由于集合中存在一堆噪声,因此您无法仅检查点之间的斜率以确定峰值。

为了解决这个问题,我考虑使用多项式回归来“平滑”数据集,然后从结果模型中确定局部最大值。

我已经浏览了这个链接 但是,http://scikit-learn.org/stable/auto_examples/linear_model/plot_polynomial_interpolation.html只会告诉您如何创建一个非常贴合的模型。它没有告诉您是否存在衡量哪个是最佳模型的综合指标。我应该通过Chi平方来做到这一点吗?或者是否有其他指标可以更好地运行或者集成到scikit-learn工具包中?

先谢谢!

1 个答案:

答案 0 :(得分:0)

直接链接显示了如何在多项式特征之上构建岭回归。因此,这不是“紧密配合”,因为您可以通过正则化(alpha参数)控制它 - 优先于参数。现在,你是什么意思"最佳模特" - 作为最佳回归,有无限多种可能的标准,每种都通过不同的标准进行测试。你需要回答自己 - 你感兴趣的措施是什么。它应该是某种黄金比例"平滑与紧密健身之间?或者你可能想要一个最多一些平滑的模型,这可以最大限度地减少一些误差测量(到点的平均距离?)?还有一种方法是测试它捕获底层过程的程度 - 通过某种典型的验证(如交叉验证等),您可以在数据子集上重复构建模型并检查保持部分的错误。有许多可能的(并且完全有效!)方法 - 一切都取决于您想要回答的确切问题。 "什么是最好的型号"不幸的是,这不是一个好问题。