Question

我的数据集中有一个文本列，并且使用该列我希望为所有存在的单词计算IDF。 scikit中的TFID实现，如 tfidf vectorize ，直接给我TFIDF值，而不是单词IDF。有没有办法让IDF提供一组文件？

Answer 1

你可以使用TfidfVectorizer和use_idf = True（默认值），然后用idf _提取。

    from sklearn.feature_extraction.text import TfidfVectorizer

    my_data = ["hello how are you", "hello who are you", "i am not you"]

    tf = TfidfVectorizer(use_idf=True)
    tf.fit_transform(my_data)

    idf = tf.idf_

Answer 2

使用此：

vectorizer = TfidfVectorizer（use_idf = True）

vectorizer.fit_transform（YOUR_VALUES）

YOUR_IDF_VALUES = vectorizer.idf _

有没有办法只使用scikit或任何其他python包获得单词的IDF值？

2 个答案: