标签: python python-3.x python-2.7 numpy python-3.7
我使用scikit-learn的TFIDFVectorizer为一组文档创建了TF-IDF分数矩阵,并为其提供了词汇表。因为我想要整个语料库中最重要的单词,所以我按列汇总了值-即,对所有文档中每个单词的TF-IDF值求和。当某些单词的总和为0时,这意味着什么?词汇表仅从文档派生,因此并不是它们不在文档之内。