应用错误收集

时间：2015-10-02 18:52:56

标签： machine-learning data-analysis

我们如何确定数据集中的给定变量（要素）对于准确执行预测任务是否重要？

应该进行哪些测试并用于确定变量在预测中的适用性？

假设我有32个功能，其中一个是“收入”，那么我应该如何开始分析其重要性。将此特征与其他特征进行比较是否有用，因为最终它的变量集合将有助于预测而不是这两个被比较的变量......

答案 0 :(得分：2)

从这里开始（特别是para功能选择教程和食谱）：

并且（列出了进一步谷歌搜索的可用方法的数量）：

也是关于这个问题的更一般性讨论的好文章：

最简单的方法是尝试在数据集上安装RandomForest或Gradient Boosting Machine。这些算法在拟合期间自动评估每个要素的重要性，在分类器或回归量适合后，您可以访问（在scikit-learn中）其feature_importances_属性 - http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html