Question

我正在使用信息增益，PCA和遗传算法进行＆＃34;文本分类＆＃34; 但是在执行预处理之后（词干，删除词尾词），TFIDF）文件混淆了如何提前获取信息增益部分。

我的输出文件包含字并且 TFIDF 值。

像 WORD - TFIDF VALUE

在一起（字） - 0.235（tfidf值）

来（字） - 0.2548（tfidf值）

当使用weka获取信息时（＆＃34; InfoGainAttributeEval.java ＆＃34;），它需要 .arff 文件格式作为输入。

是否可以将文本文件转换为 .arff 格式。或以其他方式预先形成除weka以外的信息收益？

是否还有其他开源用于计算文档的信息收益？

Answer 1

我找到了答案。在此我们必须生成 arff 文件。

在.arff文件中

@RELATION部分将包含预处理后整个文档中的所有字词。每个字词的类型为真实，因为 tfidf值是一个真实值。

@data section 将包含预处理期间计算的 tfidf 值。例如，首先将包含 tfidf值第一个文档中出现的所有单词以及最后一个colunm文档分类。

@RELATION filename
@ATTRIBUTE word1 real
@ATTRIBUTE word2 real
@ATTRIBUTE word3 real
.
.
.
.so on
@ATTRIBUTE class {cacm,cisi,cran,med}

@data
0.5545479562,0.27,0.554544479562,0.4479562,cacm
0.5545479562,0.27,0.554544479562,0.4479562,cacm
0.55454479562,0.1619617,0.579562,0.5542,cisi
0.5545479562,0.27,0.554544479562,0.4479562,cisi
0.0,0.2396113617,0.44479562,0.2,cran
0.5545479562,0.27,0.554544479562,0.4479562,carn
0.5545177444479562,0.26196113617,0.0,0.0,med
0.5545479562,0.27,0.554544479562,0.4479562,med

生成此文件后，您可以将此文件作为InfoGainAttributeEval.java的输入。这对我有用。

信息增益计算文本文件？

1 个答案: