使用Python对文档中最相关和最不相关的推文进行排名

时间:2016-09-11 10:27:05

标签: python python-2.7 tf-idf topic-modeling

我有一份文件,比方说有15条推文。在给出查询的情况下,我们如何将与查询最相关的推文排名为最不相关?

也就是说,让D成为包含15条推文的文档:

D = ['Tweet 1', 'Tweet 2' ..... 'Tweet 15']
Q = "some noun phrase"

鉴于Q,我们可以使用哪种方法对最相关和最不相关的推文进行排名?

所有推文都相似,属于同一主题。 我可以使用tf-idf(我认为这是一个坏主意)主题建模吗?

2 个答案:

答案 0 :(得分:0)

可以基于推文中包含的推文中包含多少单词。如果他们在同一主题或最高主题,排名应该是一个好主意。

答案 1 :(得分:0)

Yoe需要nltk(自然语言工具包)libery。有内置函数计数tf-idf