应用错误收集

我想知道我是否能在问题上得到一些帮助。

我正在为我以前的实验室创建一个工具，它使用来自基于物理的机器（很多噪声）的数据，这些数据产生简单的x，y坐标。我想识别数据集的局部最大值，但是，由于集合中存在一堆噪声，因此您无法仅检查点之间的斜率以确定峰值。

为了解决这个问题，我考虑使用多项式回归来“平滑”数据集，然后从结果模型中确定局部最大值。

我已经浏览了这个链接但是，http://scikit-learn.org/stable/auto_examples/linear_model/plot_polynomial_interpolation.html只会告诉您如何创建一个非常贴合的模型。它没有告诉您是否存在衡量哪个是最佳模型的综合指标。我应该通过Chi平方来做到这一点吗？或者是否有其他指标可以更好地运行或者集成到scikit-learn工具包中？

先谢谢！

直接链接显示了如何在多项式特征之上构建岭回归。因此，这不是“紧密配合”，因为您可以通过正则化（alpha参数）控制它 - 优先于参数。现在，你是什么意思＆＃34;最佳模特＆＃34; - 作为最佳回归，有无限多种可能的标准，每种都通过不同的标准进行测试。你需要回答自己 - 你感兴趣的措施是什么。它应该是某种黄金比例＆＃34;平滑与紧密健身之间？或者你可能想要一个最多一些平滑的模型，这可以最大限度地减少一些误差测量（到点的平均距离？）？还有一种方法是测试它捕获底层过程的程度 - 通过某种典型的验证（如交叉验证等），您可以在数据子集上重复构建模型并检查保持部分的错误。有许多可能的（并且完全有效！）方法 - 一切都取决于您想要回答的确切问题。＆＃34;什么是最好的型号＆＃34;不幸的是，这不是一个好问题。

噪声数据集的多项式回归

1 个答案: