我想问一下每个人关于相关特征(变量)如何影响机器学习算法的分类准确性的问题。相关特征是指它们之间的相关性,而不是目标类别(即周长和几何图形的面积或教育水平和平均收入)之间的相关性。在我看来,相关特征会对分类算法的准确性产生负面影响,我会说,因为相关性使其中一个无用。它真的像这样吗?问题是否随分类算法类型的变化而变化?任何关于论文和讲座的建议都非常受欢迎!感谢
答案 0 :(得分:24)
相关特征本身不会影响分类准确性。实际情况中的问题是我们有一些训练样本,用于训练分类器。对于固定数量的训练示例,增加特征的数量通常会将分类精度提高到一定程度,但随着特征数量的不断增加,分类准确性最终会降低,因为我们的欠采样相对于大量的功能。要了解有关此问题的更多信息,请查看curse of dimensionality。
如果两个数字特征完全相关,则不会添加任何其他信息(由另一个确定)。因此,如果要素数量过多(相对于训练样本大小),则通过feature extraction技术减少要素数量是有益的(例如,通过principal components)
相关性的影响取决于分类器的类型。一些非参数分类器对变量的相关性不太敏感(尽管训练时间可能随着特征数量的增加而增加)。对于诸如高斯最大似然的统计方法,相对于训练样本大小具有太多相关特征将使得分类器在原始特征空间中不可用(样本数据的协方差矩阵变为单数)。
答案 1 :(得分:1)
一般来说,我认为功能越不相关,分类器性能就越好。给定一组高度相关的特征,可以使用PCA技术使它们尽可能正交以改善分类器性能。