在大规模数据挖掘基准研究的背景下,我将比较15种算法而不是9种数据集,从而得出总体上135种算法/数据集组合。该研究使用WEKA完成。
我的最后一个分析是关注特征选择的影响。我知道,没有完美的特征选择算法,但最佳选择取决于要部署的算法和数据集适用。
虽然为每个组合找到最佳特征选择算法的问题很大,但我正在寻找一般被认为表现出良好性能的算法,'allrounder'可以这么说。 到目前为止,我已经找到了建议 CFS (基于关联的功能选择), ReliefF 和 < em>基于一致性 的子集评估(Hall / Holmes 2002)作为一个不错的选择以及调查中的注释,方法就像 Rankers (例如相关系数)证明安静有效(Guyon / Ellissef 2003)。
是否有一个很好的基准研究,其他研究表明在实践中使用哪种方法或使用哪种方法?
答案 0 :(得分:0)
从文本分类的角度来看,杨等人有一个article。比较不同的特征选择算法(卡方,文档频率和信息增益)。
虽然它专注于文本(即文档频率根本不适用于您)但其他人可能会根据您的功能的性质(即二进制或不二进制,总是存在,......)< / p>
我希望这会有所帮助。