确定变量在数据分析中的重要性

时间:2015-10-02 18:52:56

标签: machine-learning data-analysis

我们如何确定数据集中的给定变量(要素)对于准确执行预测任务是否重要?

应该进行哪些测试并用于确定变量在预测中的适用性?

假设我有32个功能,其中一个是“收入”,那么我应该如何开始分析其重要性。将此特征与其他特征进行比较是否有用,因为最终它的变量集合将有助于预测而不是这两个被比较的变量......

1 个答案:

答案 0 :(得分:2)

从这里开始(特别是para功能选择教程和食谱):

http://machinelearningmastery.com/an-introduction-to-feature-selection/

并且(列出了进一步谷歌搜索的可用方法的数量):

https://en.wikipedia.org/wiki/Feature_selection

也是关于这个问题的更一般性讨论的好文章:

http://www.jmlr.org/papers/volume3/guyon03a/guyon03a.pdf

最简单的方法是尝试在数据集上安装RandomForest或Gradient Boosting Machine。这些算法在拟合期间自动评估每个要素的重要性,在分类器或回归量适合后,您可以访问(在scikit-learn中)其feature_importances_属性 - http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html