NLP - 从文本中提取类别/标签

时间:2016-07-31 09:55:44

标签: python nltk gensim

有没有人有任何想法,或者可以告诉我如何从文章中提取类别?

我所拥有的是我可以使用的成千上万篇文章(关于体育,新闻,商业等)。

例如,如果有一篇关于体育的文章我希望我的程序能够知道它的足球或篮球(或其他东西),那么输出将会是这样的:

足球90%篮球10%

2 个答案:

答案 0 :(得分:0)

我想您可以使用一些机器学习方法来实现这一目标。我想到的是使用tf-idf统计信息。

在Coursera上有一个名为" Machine Learning Foundations: A Case Study Approach"的在线课程。该课程教授如何在课程的第4周使用tf-idf统计数据。

答案 1 :(得分:0)

由于您没有用于培训的黄金数据,首先您需要创建一些。

为此,您需要定义您的类并定义一些规则,这些是每个类的明显选择,

article_text.contains("soccer") 
article_text.contains("Ronaldo") 

等等,为每个班级制作自己的标记语料库。

它不是100%准确的训练数据,但它仍然足以用于训练目的。

然后您可以使用任何ML算法进行训练和测试。