我有一个如下所示的数据集
<CustomButton@Button>:
text_size: self.size
font_size: '25sp'
markup: True
<MyWidget>:
CustomButton:
text: "Hello world, watch this text wrap inside the button"
CustomButton:
text: "Even absolute is relative to itself"
CustomButton:
text: "repeating the same thing over and over in a comp = fail"
CustomButton:
我需要使用上面作为我的文本分类的训练数据,稍后当我传递一个新句子时,该句子需要被归类为上表中提供的上述类别中的一个类别。
首先,我已经为上述数据集执行了TFIDF(术语频率逆文档频率),如下所示
**ID** **Text** **Category**
1 jake loves me more than john loves me Romance
2 july likes me more than robert loves me Friendship
3 He likes videogames more than baseball Interest
我想知道如何使用我计算的tfidf矩阵标记上述数据集中的类别?另外,以后如何使用上述数据对任何新数据进行分类?
答案 0 :(得分:0)
您可以将libsvm与python一起使用。
1.首先要做的是通过尊重libsvm提供的文件格式来表示您的文档。
2.然后,你读了数据:
from libsvm import *
prob = svm_problem(your data…)
3.您设置了svm参数
param = svm_parameter(kernel_type …)
4.培训模型
m = svm_model(prob, param)
5.然后测试新文档的模型
m.predict(your new data...)