如何有效地汇总由TFIDF Vectorizer的稀疏矩阵表示的TF-IDF列?

时间:2016-07-05 13:24:29

标签: python text scikit-learn tf-idf

我正在使用TF-IDF分析数据语料库,我想删除流行的超标准停用词。 一种有用的技术是基于阈值得到所有单词和修剪单词的TF-IDF得分的总结。 但是,我无法在Python中找到一种技术来实现这一目标。在python中是否有这种策略的实现?

以下是我尝试的代码:

t0 = time.time()
vectorizer = TfidfVectorizer()
temp_5000_tfidf = vectorizer.fit_transform(X)

t1 = time.time()
total = t1-t0
print "TF-IDF built:", total

idf_dict = dict(zip(vectorizer.get_feature_names(), vectorizer.idf_))
sorted_x = sorted(idf_dict.items(), key=operator.itemgetter(1))

for name,idf  in sorted_x:
    print name + "\t" + str(idf) + "\t" + str(round(idf * 2) / 2)

0 个答案:

没有答案