有没有办法只使用scikit或任何其他python包获得单词的IDF值?

时间:2018-01-24 20:36:28

标签: python scikit-learn nlp tf-idf tfidfvectorizer

我的数据集中有一个文本列,并且使用该列我希望为所有存在的单词计算IDF。 scikit中的TFID实现,如 tfidf vectorize ,直接给我TFIDF值,而不是单词IDF。有没有办法让IDF提供一组文件?

2 个答案:

答案 0 :(得分:1)

你可以使用TfidfVectorizer和use_idf = True(默认值),然后用idf _提取。

    from sklearn.feature_extraction.text import TfidfVectorizer

    my_data = ["hello how are you", "hello who are you", "i am not you"]

    tf = TfidfVectorizer(use_idf=True)
    tf.fit_transform(my_data)

    idf = tf.idf_ 

答案 1 :(得分:0)

使用此:

vectorizer = TfidfVectorizer(use_idf = True)

vectorizer.fit_transform(YOUR_VALUES)

YOUR_IDF_VALUES = vectorizer.idf _