Hye那里我是这项工作的新手,我在搜索如何通过它后感到困惑! 其实我想为weka创建一个稀疏的ARFF文件进行文本分类!我一直在网上搜索如何开始它。我的要求是生成一个与weka兼容的稀疏arff文件! arff的大纲应该是:
@relation myrelation
@attribute att0 numeric
@attribute att1 numeric
@data
{0,1,4,5 , A}
{0,5,2,,1 B}
这样我有一些字符串,然后是一个类 假设我的数据集如下:
string is a string A
Hello a string B
Another is string C
.
.
.
首先是字符串,然后是A,B或C类...... 所以我想要的是将我的数据集转换为上面提到的稀疏arff格式。 有人可以给我一个方向我该怎么办?请 我想在java中做到这一点
答案 0 :(得分:2)
您可以使用Weka的StringToWordVector过滤器将文本转换为单词向量(但不一定是稀疏矩阵)。看看我的tutorial。
答案 1 :(得分:1)
我想做同样的事情(想要一个.arff文件)但是使用java代码而不是GUI工具。请提出任何建议。