machine-learning - 如何验证什么是真实数据的噪音？

时间：2013-03-15 07:09:20

标签： machine-learning noise

我想知道如何声称我在数据中正确捕捉到“噪音”？

更具体地说，以主成分分析为例，我们知道在PCA中，在进行SVD之后，我们可以将小奇异值归零并使用低秩近似重建原始矩阵。

然后，我可以声称被忽略的数据确实是数据中的噪音吗？对此有任何评估指标吗？

我能想到的唯一方法就是从重建数据中减去原始数据。

然后，尝试在它上面放一个高斯，看看健康状况是否良好。

这是传统的方法，如DSP ??

BTW，我认为在典型的机器学习任务中，测量将是后续的分类性能，但由于我在做纯粹的生成模型，所以没有附加标签。

答案 0 :(得分：4)

我认为，噪音的定义取决于问题的范畴。因此，减少它的策略在每个领域都会有所不同。

例如，在地震形成分类或面部分类问题上的噪声图像等问题中产生噪声信号将与医疗诊断问题中的不正确标记数据或噪声产生的噪声完全不同，因为相似的词语具有不同意思是文档的语言分类问题。

当噪声是由于给定（或一组）数据点造成的，那么解决方案就像忽略那些数据点一样简单（虽然大多数时候识别那些数据点是具有挑战性的部分）

从你的例子中我猜你更关注噪声嵌入到特征中的情况（如地震示例中）。有时人们倾向于使用降噪滤波器（如中值滤波器（http://en.wikipedia.org/wiki/Median_filter））预处理数据。相反，其他一些人倾向于减少数据的维度以减少噪声，并且在这种情况下使用PCA。

这两种策略都是有效的，通常人们会尝试这两种策略并交叉验证它们以确定哪种策略可以获得更好的结果。

您所做的是检查高斯噪音的好指标。但是，对于非高斯噪声，您的指标可能会给您带来假阴性（糟糕的适应性，但仍然可以很好地降低噪音）

答案 1 :(得分：1)

就个人而言，如果你想证明降噪的功效，我会使用基于任务的评估。我假设你出于某种目的这样做，解决一些问题？如果是这样，请使用原始噪声矩阵和新的清洁矩阵解决任务。如果后者效果更好，那么丢弃的是噪声，用于您感兴趣的任务。我认为一些客观的噪音测量很难定义。

答案 2 :(得分：0)