我的数据集中有一个文本列,并且使用该列我希望为所有存在的单词计算IDF。 scikit中的TFID实现,如 tfidf
vectorize ,直接给我TFIDF值,而不是单词IDF。有没有办法让IDF提供一组文件?
答案 0 :(得分:1)
你可以使用TfidfVectorizer和use_idf = True(默认值),然后用idf _提取。
from sklearn.feature_extraction.text import TfidfVectorizer
my_data = ["hello how are you", "hello who are you", "i am not you"]
tf = TfidfVectorizer(use_idf=True)
tf.fit_transform(my_data)
idf = tf.idf_
答案 1 :(得分:0)
使用此:
vectorizer = TfidfVectorizer(use_idf = True)
vectorizer.fit_transform(YOUR_VALUES)
YOUR_IDF_VALUES = vectorizer.idf _