使用python以编程方式猜测段落的标记

时间:2012-06-16 16:00:16

标签: python nlp nltk

我试图阅读一般的NLP和特定的nltk与python一起使用。我不确定那里是否存在寻找的东西,或者我是否需要开发它。

我有一个程序从不同的文件中收集文本,文本非常随机,并讨论不同的事情。每个文件包含一个段落或3个最大值,我的程序打开文件并将它们存储到表中。

我的问题是,我能猜出段落的标签吗?如果有人知道现有的技术或方法,我会非常感激。

谢谢,

2 个答案:

答案 0 :(得分:1)

您的任务称为“文档分类”,nltk book有一整章。我从那开始。

这一切都取决于您分配标签的标准。您是否有兴趣将文档与预先存在的标记集匹配,或者可能在主题提取中(选择文本中N个最重要的单词或短语)?

答案 1 :(得分:0)

你应该训练一个分类器,最容易开发的分类器(你真的不需要像NLTK那样开发它)是天真的贝叶斯。问题是你需要手动对观察语料库进行分类,然后让程序猜出哪个标签最适合给定的段落(不用说,训练语料库越大,你的分类器就越精确,恕我直言,你可以达到80-85%的正确性)。看看docs