如何计算具有一组文档的短语的tf-idf分数

时间:2017-07-04 12:50:57

标签: scikit-learn information-retrieval tf-idf

我需要计算一个短语的tf-idf,例如:“开发中的判断”,带有一个关闭文档,而不是计算python中单个术语的tf-idf得分

2 个答案:

答案 0 :(得分:0)

您可以过滤文档,只使用包含/匹配查询字词的文档,或者将查询作为整个字符串使用,而不考虑每个单词。

答案 1 :(得分:0)

您可以使用Scikit-learn的TfidfVectorizer(sklearn.feature_extraction.text.TfidfVectorizer)的ngram_range属性来计算短语的tf-idf分数。如果您将ngram range输入为(1,3),则它将首先使用输入语料库中的不仅是unigram(单词),而且使用双字母组和trigram来创建词汇。最终,TfidfVectorizer将输出大小矩阵(词汇中的术语数*输入语料库中的文档数)。现在,您可以在此矩阵中引用短语的tf -idf。

您可以阅读这篇不错的文章,详细了解ellaboration https://markhneedham.com/blog/2015/02/15/pythonscikit-learn-calculating-tfidf-on-how-i-met-your-mother-transcripts/

希望这会有所帮助!