从以下链接中我得到了一些想法。我想问我是做得对还是错误。如果我的方式不对,请指导我。
链接
Using libsvm for text classification c#
How to use libsvm for text classification?
我的方式
首先计算每个训练集中的字数 为每个单词创建一个maping列表
例如
sample word count form training set
|-----|-----------|
| | counts |
|-----|-----|-----|
|text | +ve | -ve |
|-----|-----|-----|
|this | 3 | 3 |
|forum| 1 | 0 |
|is | 10 | 12 |
|good | 10 | 5 |
|-----|-----|-----|
积极的培训数据
this forum is good
训练集也将如此
+1 1:3 2:1 3:10 4:10
这一切都是我从上面的链接收到的 请帮帮我。
答案 0 :(得分:4)
你做对了。
我不知道为什么你的laben被称为“+1” - 应该是一个简单的整数(参考文档“+ ve”),但总而言之,它是要走的路。
对于文档分类,您可能需要查看专为处理大量功能而设计的liblinear。
答案 1 :(得分:0)
你也可以从这里使用libshorttext: libshortText
在python中