我正在使用TF-IDF分析数据语料库,我想删除流行的超标准停用词。 一种有用的技术是基于阈值得到所有单词和修剪单词的TF-IDF得分的总结。 但是,我无法在Python中找到一种技术来实现这一目标。在python中是否有这种策略的实现?
以下是我尝试的代码:
t0 = time.time()
vectorizer = TfidfVectorizer()
temp_5000_tfidf = vectorizer.fit_transform(X)
t1 = time.time()
total = t1-t0
print "TF-IDF built:", total
idf_dict = dict(zip(vectorizer.get_feature_names(), vectorizer.idf_))
sorted_x = sorted(idf_dict.items(), key=operator.itemgetter(1))
for name,idf in sorted_x:
print name + "\t" + str(idf) + "\t" + str(round(idf * 2) / 2)