我正在尝试使用Weka进行文本分类。我有两个ARFF文件:
一个用于训练集(数据中的行的示例):
“鼠标”,不,不,不,不,不,是,否
另一个用于测试集(数据中的行示例:)
“猫”,?,?,?,?,?,?,?
它们具有相同的属性声明。但如果我使用批量过滤它告诉我“输入文件格式不同”。的为什么吗
这是我使用的命令:
C:\Programmi\Weka-3-6>java -cp C:\Programmi\Weka-3-6\weka.jar
weka.filters.unsupervised.attribute.StringToWordVector -b -i test1.arff
-o output_training.arff -c last -r tent.arff -s output_tent.arff
-R -O -C -T -I -N 0 -M 1
这里是标题: 1)培训
@RELATION tent
@Attribute text string
@Attribute politica {yes,no}
@Attribute sports {yes,no}
@Attribute cinema/tv/musica {yes,no}
@Attribute stato_personale {yes,no}
@Attribute moda/stile {yes,no}
@Attribute conversazione {yes,no}
@Attribute attualità {yes,no}
2)测试
@RELATION test
@Attribute text string
@Attribute politica {yes,no}
@Attribute sports {yes,no}
@Attribute cinema/tv/musica {yes,no}
@Attribute stato_personale {yes,no}
@Attribute moda/stile {yes,no}
@Attribute conversazione {yes,no}
@Attribute attualità {yes,no}
我也尝试在两者中设置相同的@RELATION名称,但它会出现同样的错误。 另外两个文件工作正常,我可以正确执行StringToWordVector。 再次感谢