应用错误收集

Java SVM文本分类，培训＆amp;测试文件？

时间：2014-01-12 14:53:15

标签： text classification svm libsvm svmlight

我正在尝试将文本文档分类为类别，例如：

文件1：“篮球是一项很好的运动”---＆gt;类别：运动
文件2：“第二次世界大战......”---＆gt;类别：历史
......

我的gool是使用SVM算法创建Java接口！所以，我应该使用SVM Java Library，我发现了两个：

SVMLIGH
LIBSVM

我应该使用第一个还是第二个？

我做了很多研究，发现我应该做两件事：

我应该准备一份培训档案在SVM中，此文件有一种特殊格式（例如：1 1：317.5）
但问题是：从我应该生成这个文件？仅从文件？或者来自其他什么？
我应该有一个测试文件，这意味着要分类的新文档。我应该将新文档转换为SVM Test文件格式吗？

那是对的吗？

请指导我，我真的迷路了，我不知道该怎么办！ PLZ

1 个答案:

答案 0 :(得分：1)

是的，您应该将格式更改为svm标准你的svm分类器不知道文本，首先你应该将你的文本（训练，测试）改为standrad格式你可以用Weka开始你的分类器，weka有简单的GUI＆amp;您只需点击几下即可对数据集进行分类当你对你的分类器有信心时它的准确性然后在java中实现它你也可以在你的java代码中使用Weka

PS： 1-首次使用的WEKA文本分类＆amp;初学者用户：http://www.youtube.com/watch?v=IY29uC4uem8

2- http://www.cs.waikato.ac.nz/ml/weka/