Python-计算跨越不同推文的前100个单词的最高tf-idf值

时间:2016-07-13 17:48:18

标签: python twitter tf-idf tweets

我从twitter收集了数千条推文,并将这些推文保存在一个.txt文件中。现在,我想从这个.txt文件计算推文中每个单词的tf-idf值,并提取前100个单词的最高tf-idf值。

问题

我可以通过Python的scikit-learn TfidfVectorize来计算每个单词的tf-idf值,但每个单词的tf-idf值只表示它所属的推文的重要性。 。我不能通过所有推文计算出最高的tf-idf值,但只能计算每个推文的最高价值。

所以我的问题是我无法比较单词的tf-idf值属于不同的推文。我如何计算每个单词的tfidf值跨越不同的推文并提取最高值前100个单词。

0 个答案:

没有答案