Question

我有一份文件，比方说有15条推文。在给出查询的情况下，我们如何将与查询最相关的推文排名为最不相关？

也就是说，让D成为包含15条推文的文档：

D = ['Tweet 1', 'Tweet 2' ..... 'Tweet 15']
Q = "some noun phrase"

鉴于Q，我们可以使用哪种方法对最相关和最不相关的推文进行排名？

所有推文都相似，属于同一主题。我可以使用tf-idf（我认为这是一个坏主意）主题建模吗？

Answer 1

可以基于推文中包含的推文中包含多少单词。如果他们在同一主题或最高主题，排名应该是一个好主意。

Answer 2

Yoe需要nltk（自然语言工具包）libery。有内置函数计数tf-idf