我正在尝试将文本文档分类为类别,例如:
文件1:“篮球是一项很好的运动”--->类别:运动
文件2:“第二次世界大战......”--->类别:历史
......
我的gool是使用SVM算法创建Java接口! 所以,我应该使用SVM Java Library,我发现了两个:
我应该使用第一个还是第二个?
我做了很多研究,发现我应该做两件事:
我应该准备一份培训档案
在SVM中,此文件有一种特殊格式(例如:1 1:317.5)
但问题是:从我应该生成这个文件?仅从文件?或者来自其他什么?
我应该有一个测试文件,这意味着要分类的新文档。我应该将新文档转换为SVM Test文件格式吗?
那是对的吗?
请指导我,我真的迷路了,我不知道该怎么办! PLZ
答案 0 :(得分:1)
PS: 1-首次使用的WEKA文本分类&初学者用户:http://www.youtube.com/watch?v=IY29uC4uem8