应用错误收集

如何计算具有一组文档的短语的tf-idf分数

时间：2017-07-04 12:50:57

标签： scikit-learn information-retrieval tf-idf

我需要计算一个短语的tf-idf，例如：“开发中的判断”，带有一个关闭文档，而不是计算python中单个术语的tf-idf得分

2 个答案:

答案 0 :(得分：0)

您可以过滤文档，只使用包含/匹配查询字词的文档，或者将查询作为整个字符串使用，而不考虑每个单词。

答案 1 :(得分：0)

您可以使用Scikit-learn的TfidfVectorizer（sklearn.feature_extraction.text.TfidfVectorizer）的ngram_range属性来计算短语的tf-idf分数。如果您将ngram range输入为（1,3），则它将首先使用输入语料库中的不仅是unigram（单词），而且使用双字母组和trigram来创建词汇。最终，TfidfVectorizer将输出大小矩阵（词汇中的术语数*输入语料库中的文档数）。现在，您可以在此矩阵中引用短语的tf -idf。

您可以阅读这篇不错的文章，详细了解ellaboration https://markhneedham.com/blog/2015/02/15/pythonscikit-learn-calculating-tfidf-on-how-i-met-your-mother-transcripts/

希望这会有所帮助！