Java SVM文本分类,培训&测试文件?

时间:2014-01-12 14:53:15

标签: text classification svm libsvm svmlight

我正在尝试将文本文档分类为类别,例如:

文件1:“篮球是一项很好的运动”--->类别:运动
文件2:“第二次世界大战......”--->类别:历史
......

我的gool是使用SVM算法创建Java接口! 所以,我应该使用SVM Java Library,我发现了两个:

  • SVMLIGH
  • LIBSVM

我应该使用第一个还是第二个?

我做了很多研究,发现我应该做两件事:

  • 我应该准备一份培训档案 在SVM中,此文件有一种特殊格式(例如:1 1:317.5)
    但问题是:从我应该生成这个文件?仅从文件?或者来自其他什么?

  • 我应该有一个测试文件,这意味着要分类的新文档。我应该将新文档转换为SVM Test文件格式吗?

那是对的吗?

请指导我,我真的迷路了,我不知道该怎么办! PLZ

1 个答案:

答案 0 :(得分:1)

是的,您应该将格式更改为svm标准 你的svm分类器不知道文本,首先你应该将你的文本(训练,测试)改为standrad格式 你可以用Weka开始你的分类器,weka有简单的GUI&您只需点击几下即可对数据集进行分类 当你对你的分类器有信心时它的准确性然后在java中实现它 你也可以在你的java代码中使用Weka

PS: 1-首次使用的WEKA文本分类&初学者用户:http://www.youtube.com/watch?v=IY29uC4uem8

2- http://www.cs.waikato.ac.nz/ml/weka/