为Weka生成一个Arff文件

时间:2015-02-27 16:09:45

标签: java weka text-classification arff

Hye那里我是这项工作的新手,我在搜索如何通过它后感到困惑! 其实我想为weka创建一个稀疏的ARFF文件进行文本分类!我一直在网上搜索如何开始它。我的要求是生成一个与weka兼容的稀疏arff文件! arff的大纲应该是:

 @relation myrelation
 @attribute att0 numeric
 @attribute att1 numeric
 @data
 {0,1,4,5 , A}
 {0,5,2,,1 B}

这样我有一些字符串,然后是一个类 假设我的数据集如下:

 string is a string A
 Hello a string B
 Another is string C
 .
 .
 .

首先是字符串,然后是A,B或C类...... 所以我想要的是将我的数据集转换为上面提到的稀疏arff格式。 有人可以给我一个方向我该怎么办?请 我想在java中做到这一点

2 个答案:

答案 0 :(得分:2)

您可以使用Weka的StringToWordVector过滤器将文本转换为单词向量(但不一定是稀疏矩阵)。看看我的tutorial

答案 1 :(得分:1)

我想做同样的事情(想要一个.arff文件)但是使用java代码而不是GUI工具。请提出任何建议。