1)我想应用像IG,MI这样的特征加权方法来加权我的特征,但是StringToWordVector只允许我们使用TF-IDf来加权weka中的特征。
有没有办法可以使用TF-IDF以外的加权方法来加权我的术语?
2)如何在java代码中访问每个功能的TF-IDF权重?我调试了代码并发现所有术语都分配了权重1.0?
filterInstances.attribute(i).weight() // filter instances is set of instances after applying tf-idf
3)IG小于0的术语是否对分类过程没有帮助,我们应该总是从词汇中消除它们?
提前完成了......