如何评估特征选择方法?

时间:2013-01-08 19:58:37

标签: machine-learning weka feature-extraction feature-selection

您好

如何为给定数据集(文本数据)选择最适合的特征选择方法?

在Weka中,有几种属性选择方法(CfsSubsetEval,ChiSquaredAttributeEval,...等),以及几种搜索方法(bestfirst,greedy,ranker等)。

我的问题:我如何知道哪种属性选择方法和搜索方法最适合给定的数据集?!

我的猜测:应用特征选择过滤器后,我是否应该使用交叉验证来测试数据集?所以例如,这意味着如果我有10个属性选择方法和10个搜索方法,我将需要执行100个交叉验证测试然后选择具有最高精度的配置!!!!!!!而我在这里假设我只针对一个分类器进行测试。那么如果我有2个分类器(SMO和J48),我需要进行200次交叉验证测试吗?!

如果我误解了某些事情,请纠正我......

3 个答案:

答案 0 :(得分:4)

您可以尝试信息增益或主成分分析,以确定哪些功能在您的分类中增加最多(信息增益)或具有最高差异(PCA)。

您也可以使用您提到的技巧。但无论你做什么,你都要评估它是否有效,根据你的观点,这可能会非常痛苦或很多乐趣:-)

答案 1 :(得分:1)

有不同类型的功能选择,包括过滤器和包装器方法。过滤方法是与分类器无关的技术,用于基于距离,相关或互信息选择特征。我建议您检查FEAST工具和mRMR

关于基于特定分类器性能的包装器模型,您不需要枚举所有的搜索方法。您修复了一种搜索方法并应用了帖子中提出的比较。

答案 2 :(得分:1)

您应该在整个数据集上构建模型,然后执行特征选择(FS)。如果您有多个模型,则可以通过引用RMSE或MSE来扩展功能重要性。如果您熟悉R,请尝试使用谷歌搜索“随机森林和特征选择”。