我在weka工作进行文本分类。我在词汇表中总共有113232个属性,其中我想选择前10,000个属性。 Follwing正在设置我的信息增益过滤器
AttributeSelection featureSelectionFilter = new AttributeSelection();
InfoGainAttributeEval informationGain = new InfoGainAttributeEval();
Ranker ranker = new Ranker();
ranker.setNumToSelect(10000);
ranker.setThreshold(0);
我认为它可以按照信息增益的降序排列属性,我不确定我的假设是对还是错这里是三个属性的图像
最大值std dev表示所有第一个属性都高于其他可能表明其重要性但第二个属性的值小于第3个?这样对吗 ?当我们设置numToSelect(10,000)时,如何从词汇表中选择属性; ?