我有一份文件,比方说有15条推文。在给出查询的情况下,我们如何将与查询最相关的推文排名为最不相关?
也就是说,让D成为包含15条推文的文档:
D = ['Tweet 1', 'Tweet 2' ..... 'Tweet 15']
Q = "some noun phrase"
鉴于Q,我们可以使用哪种方法对最相关和最不相关的推文进行排名?
所有推文都相似,属于同一主题。 我可以使用tf-idf(我认为这是一个坏主意)主题建模吗?
答案 0 :(得分:0)
可以基于推文中包含的推文中包含多少单词。如果他们在同一主题或最高主题,排名应该是一个好主意。
答案 1 :(得分:0)
Yoe需要nltk(自然语言工具包)libery。有内置函数计数tf-idf