我们如何确定数据集中的给定变量(要素)对于准确执行预测任务是否重要?
应该进行哪些测试并用于确定变量在预测中的适用性?
假设我有32个功能,其中一个是“收入”,那么我应该如何开始分析其重要性。将此特征与其他特征进行比较是否有用,因为最终它的变量集合将有助于预测而不是这两个被比较的变量......
答案 0 :(得分:2)
从这里开始(特别是para功能选择教程和食谱):
http://machinelearningmastery.com/an-introduction-to-feature-selection/
并且(列出了进一步谷歌搜索的可用方法的数量):
https://en.wikipedia.org/wiki/Feature_selection
也是关于这个问题的更一般性讨论的好文章:
http://www.jmlr.org/papers/volume3/guyon03a/guyon03a.pdf
最简单的方法是尝试在数据集上安装RandomForest或Gradient Boosting Machine。这些算法在拟合期间自动评估每个要素的重要性,在分类器或回归量适合后,您可以访问(在scikit-learn中)其feature_importances_
属性 - http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html