用于识别文章主题的python库

时间:2013-04-01 14:37:03

标签: python statistics nlp identifier corpus

我有很多文章,80.000,我想提取一些关于一个主题的文章。是否有一个python库或脚本,我可以输入一个手动选择的文章样本关于说主题A然后它将通过比较使用的单词和他们的频率从档案中提取有关主题A的文章。

我已经阅读了关于Dunning方法的内容,但是有一个现成的脚本,我可以使用python。

由于

2 个答案:

答案 0 :(得分:3)

查看自然语言工具包(http://nltk.org),它是一个优秀的Python库,用于处理和提取自然语言语料库中的含义,如文章集。此外,根据您想要做的其他事情,我建议scikit-learn库(http://scikit-learn.org/)用于提取文本上的其他机器学习任务。

答案 1 :(得分:0)

让我将我的建议正式化,如果只是为了后代。

0。)我知道哪些东西可以做你想要的所有东西,你可以免费获得。要付费,请搜索“google enterprise search”。

1。)使用elastic search使用JSON索引文档。它的设置非常简单。弹性搜索有很多补救搜索功能,不能直接解决您的问题,但是当您尝试构建自己的搜索引擎时,这将允许您进行简单的关键字搜索。

2。)要按科目搜索,你必须写一个学习例程。一个非常简单的,实际上是一个非常好的开始你的问题的地方,是here。这个例子将给你一个起点。