我从twitter收集了数千条推文,并将这些推文保存在一个.txt文件中。现在,我想从这个.txt文件计算推文中每个单词的tf-idf值,并提取前100个单词的最高tf-idf值。
问题
我可以通过Python的scikit-learn TfidfVectorize
来计算每个单词的tf-idf值,但每个单词的tf-idf值只表示它所属的推文的重要性。 。我不能通过所有推文计算出最高的tf-idf值,但只能计算每个推文的最高价值。
所以我的问题是我无法比较单词的tf-idf值属于不同的推文。我如何计算每个单词的tfidf值跨越不同的推文并提取最高值前100个单词。