返回基于频率分布的文章 - Python NLTK

时间:2012-08-07 03:54:30

标签: python nlp nltk

任何人都知道使用Python和NLTK获取最接近搜索查询的文章的简单方法吗?例如,我想从维基百科收集10篇文章,找到每个文章的频率分布(以及另一种分类方法,如果你有任何建议),并根据搜索查询,返回你最有可能的文章可能是指。

有什么想法吗?我想要一个比频率分布更好的方法,但我想我会从那里开始。

1 个答案:

答案 0 :(得分:2)

Rocchio的算法又名TFxIDF又名tf-idf又名tfidf又名甚至tf / idf(sic)几乎是标准的解决方案。您可以计算整个文档集的术语频率,而不是裸频率,然后将术语的权重表示为文档的术语频率除以总频率计数。这样,你就不需要停用词,因为常用词的IDF会使其权重几乎为零。