我正在使用libsvm(3.11)工具在我的项目中实现SVM分类(使用Multi Agent进行文本分类)。 但每当我预测结果时,它都会为所有测试文档提供相同的标签,即+1或-1 ,尽管我使用的是不同的各种数据。
我正在使用以下过程为纯文本文档执行libsvm分类:
- >将有一套培训文本文件
- >我正在使用TF-IDF权重将这些文本文档转换为libsvm支持的格式(我正在使用两个文件夹,代表两个类..对于第一个文件夹我分配标签-1,对于第二个文件夹,它是+1跟随TF-IDF该文本文档的值)
- >之后我把那些文字放到一个纯文本文件中......然后通过使用那些单词我生成带有一些标签的测试文档向量(我只拿一个测试文档,所以IDF将始终是1和ll只有一个载体......我希望标签没关系)...
- >之后我将libsvm函数svm_train和svm_predict应用于默认选项
我在做正确的程序吗? ..如果有任何错误的程序,请随时通知我..它会帮助我..
和Y这个libsvm总是只给出一个标签结果? ..我的程序有问题吗? ..或工具问题? 在此先感谢..
答案 0 :(得分:1)
为什么使用新标准制作测试文档?测试和培训文档集应全部来自您的原始“培训文本文档”集。我把它们放在引号中,因为你可以把它们的一部分用于测试。最后,确保您的培训和测试文本文档集与原始集合不同。