Question

我正在尝试使用Weka进行文本分类。我有两个ARFF文件：

一个用于训练集（数据中的行的示例）：

“鼠标”，不，不，不，不，不，是，否

另一个用于测试集（数据中的行示例：）

“猫”，？，？，？，？，？，？，？

它们具有相同的属性声明。但如果我使用批量过滤它告诉我“输入文件格式不同”。的为什么吗

这是我使用的命令：

C:\Programmi\Weka-3-6>java -cp C:\Programmi\Weka-3-6\weka.jar 
  weka.filters.unsupervised.attribute.StringToWordVector -b -i test1.arff
  -o output_training.arff -c last -r tent.arff -s output_tent.arff
  -R -O -C -T -I -N 0 -M 1

这里是标题： 1）培训

@RELATION tent

@Attribute text                 string
@Attribute politica             {yes,no}
@Attribute sports               {yes,no}
@Attribute cinema/tv/musica     {yes,no}
@Attribute stato_personale      {yes,no}
@Attribute moda/stile           {yes,no}
@Attribute conversazione        {yes,no}
@Attribute attualità            {yes,no}

2）测试

@RELATION test

@Attribute text                 string
@Attribute politica             {yes,no}
@Attribute sports               {yes,no}
@Attribute cinema/tv/musica     {yes,no}
@Attribute stato_personale      {yes,no}
@Attribute moda/stile           {yes,no}
@Attribute conversazione        {yes,no}
@Attribute attualità            {yes,no}

我也尝试在两者中设置相同的@RELATION名称，但它会出现同样的错误。另外两个文件工作正常，我可以正确执行StringToWordVector。再次感谢

weka批量过滤StringToWordVector

0 个答案: