Python文本使用TFIDF进行分类

时间:2016-06-02 19:06:55

标签: python python-3.x tf-idf text-classification document-classification

我有一个如下所示的数据集

<CustomButton@Button>:
    text_size: self.size
    font_size: '25sp'
    markup: True

<MyWidget>:
    CustomButton:
        text: "Hello world, watch this text wrap inside the button"
    CustomButton:
        text: "Even absolute is relative to itself"
    CustomButton:
        text: "repeating the same thing over and over in a comp = fail"
    CustomButton:

我需要使用上面作为我的文本分类的训练数据,稍后当我传递一个新句子时,该句子需要被归类为上表中提供的上述类别中的一个类别。

首先,我已经为上述数据集执行了TFIDF(术语频率逆文档频率),如下所示

**ID**        **Text**                                     **Category**
   1     jake loves me more than john loves me               Romance
   2     july likes me more than robert loves me             Friendship
   3     He likes videogames more than baseball              Interest

我想知道如何使用我计算的tfidf矩阵标记上述数据集中的类别?另外,以后如何使用上述数据对任何新数据进行分类?

1 个答案:

答案 0 :(得分:0)

您可以将libsvm与python一起使用。

1.首先要做的是通过尊重libsvm提供的文件格式来表示您的文档。

2.然后,你读了数据:

from libsvm import *
prob = svm_problem(your data…)

3.您设置了svm参数

param = svm_parameter(kernel_type …)

4.培训模型

m = svm_model(prob, param)

5.然后测试新文档的模型

m.predict(your new data...)