使用相关性和使用特征选择来选择重要/高度相关的变量之间有什么区别?在研究特征选择时,我看到它使用包括皮尔森相关性在内的统计检验。
大学项目的一部分,我们小组希望在进行数据挖掘时识别重要变量。合作伙伴使用R Studio进行相关性分析,我使用Sci-kit Learn进行递归特征消除。
当这样做时,一个变量在前三个最高相关变量和前三个排名变量之间是共同的,通过递归特征消除。
任何帮助都会非常感激,因为我对此很陌生!
答案 0 :(得分:0)
您可以怀疑最相关的功能是多余的。但是,您无法说明该功能如何完全影响性能。相关性是信息性的,但不同的特征选择技术可以完全不同,因此也值得使用它们。然后,您可以合并结果,例如验证相关要素是否冗余。
您可以在此处找到有趣的信息:
http://scikit-learn.org/stable/modules/feature_selection.html
正如您所看到的,基于树的特征选择可以通过树模型进行偏差,但它给出了给定特征影响决策的答案。这可能是与相关性完全不同的指标。