我正在使用信息增益,PCA和遗传算法进行"文本分类" 但是在执行预处理之后(词干,删除词尾词) ,TFIDF)文件混淆了如何提前获取信息增益部分。
我的输出文件包含字并且 TFIDF 值。
像 WORD - TFIDF VALUE
在一起(字) - 0.235(tfidf值)
来(字) - 0.2548(tfidf值)
当使用weka获取信息时(" InfoGainAttributeEval.java "),它需要 .arff 文件格式作为输入。
是否可以将文本文件转换为 .arff 格式。 或以其他方式预先形成除weka以外的信息收益?
是否还有其他开源用于计算文档的信息收益?
答案 0 :(得分:0)
我找到了答案。 在此我们必须生成 arff 文件。
在.arff文件中
@RELATION部分将包含预处理后整个文档中的所有字词。每个字词的类型为真实,因为 tfidf值是一个真实值。@data section 将包含预处理期间计算的 tfidf 值。 例如,首先将包含 tfidf值第一个文档中出现的所有单词以及最后一个colunm文档分类。
@RELATION filename
@ATTRIBUTE word1 real
@ATTRIBUTE word2 real
@ATTRIBUTE word3 real
.
.
.
.so on
@ATTRIBUTE class {cacm,cisi,cran,med}
@data
0.5545479562,0.27,0.554544479562,0.4479562,cacm
0.5545479562,0.27,0.554544479562,0.4479562,cacm
0.55454479562,0.1619617,0.579562,0.5542,cisi
0.5545479562,0.27,0.554544479562,0.4479562,cisi
0.0,0.2396113617,0.44479562,0.2,cran
0.5545479562,0.27,0.554544479562,0.4479562,carn
0.5545177444479562,0.26196113617,0.0,0.0,med
0.5545479562,0.27,0.554544479562,0.4479562,med
生成此文件后,您可以将此文件作为InfoGainAttributeEval.java
的输入。这对我有用。