特征选择/属性选择 - 良好的整体表现

时间:2013-09-17 18:02:13

标签: attributes statistics classification feature-extraction feature-selection

在大规模数据挖掘基准研究的背景下,我将比较15种算法而不是9种数据集,从而得出总体上135种算法/数据集组合。该研究使用WEKA完成。

我的最后一个分析是关注特征选择的影响。我知道,没有完美的特征选择算法,但最佳选择取决于要部署的算法数据集适用。

虽然为每个组合找到最佳特征选择算法的问题很大,但我正在寻找一般被认为表现出良好性能的算法,'allrounder'可以这么说。 到目前为止,我已经找到了建议 CFS (基于关联的功能选择), ReliefF < em>基于一致性 的子集评估(Hall / Holmes 2002)作为一个不错的选择以及调查中的注释,方法就像 Rankers (例如相关系数)证明安静有效(Guyon / Ellissef 2003)。

是否有一个很好的基准研究,其他研究表明在实践中使用哪种方法或使用哪种方法?

1 个答案:

答案 0 :(得分:0)

从文本分类的角度来看,杨等人有一个article。比较不同的特征选择算法(卡方,文档频率和信息增益)。

虽然它专注于文本(即文档频率根本不适用于您)但其他人可能会根据您的功能的性质(即二进制或不二进制,总是存在,......)< / p>

我希望这会有所帮助。