weka:不同格式的火车和测试集(arff和文本格式)

时间:2014-01-14 20:25:47

标签: testing weka

我有一个用stringtowordvector构建的arff文件并包含功能,它的TFIDF可能是这样的:

@relation 'sss'
-weka.filters.unsupervised.attribute.StringToWordVector-R-W100-prune-rate-1.0-C-T-I-N0-S-stemmerweka.core.stemmers.NullStemmer -tokenizerweka.core.tokenizers.WordTokenizer -delimiters \" ؟،؛\\r\\t\\n.,;:\\\'\\\"()?!-><#$\\\%&*+/@^_=[]{}|`~0123456789\"'


@attribute @@class@@ {mis,pol}
@attribute water numeric
@attribute start numeric
@attribute government numeric

{2 0.285724,6 0.338022,7 0.517187,8 0.164801,9 ...}
{7 1.191401,8 0.560813,9 0.904039,10 0.322267....}
..
....
{0 pol,6 1.276448,36 0.702977,...}

现在我有一个包含2个类文本的测试文件夹。(例如火车组:pol和mis)。 我想对这个测试进行分类并评估我的火车组。我知道为此我应该使用批量过滤器,所以我读了这个链接: http://weka.wikispaces.com/Use+WEKA+in+your+Java+code#Filter-Batch%20filtering 基于这个链接,我的测试和训练集应该采用相同的格式(简单的文本格式)。我不知道当我的列车设置为arff格式且我的测试集是文本格式时我该怎么办。(i没有以文本文件格式设置列车)

1 个答案:

答案 0 :(得分:0)

您可以执行以下操作:

  1. 以ARFF格式获取以前的训练集文件,而不应用StringToWordVector过滤器。
  2. 使用TextDirectoryToARFF生成测试集文件。
  3. 现在您有两个包含普通格式文本的ARFF文件。因此,以批处理模式将StringToWordVector过滤器应用于它们。