NLTK是否实施了TF-IDF?

时间:2015-04-10 20:34:16

标签: python nlp nltk tf-idf

scikit-learngensim中有TF-IDF实施。

有简单的实现Simple implementation of N-Gram, tf-idf and Cosine similarity in Python

为避免重新发明轮子,

  • NLTK中确实没有TF-IDF吗?
  • 我们可以操作子包以在NLTK中实现TF-IDF吗?如果有怎么办?

在这篇博文中,它说NLTK没有它。 这是真的吗? http://www.bogotobogo.com/python/NLTK/tf_idf_with_scikit-learn_NLTK.php

2 个答案:

答案 0 :(得分:9)

NLTK TextCollection类有一个计算术语tf-idf的方法。文档为here,来源为here。但是,它表示加载速度可能会很慢,因此使用scikit-learn可能更为可取。

答案 1 :(得分:2)

我想,有足够的证据可以证明在NLTK中不存在TF-IDF:

  1.   

    不幸的是,计算tf-idf在NLTK中不可用,所以我们会这样做   使用另一个数据分析库,scikit-learn

    来自COMPSCI 290-01 Spring 2014 lab

  2. 更重要的是,源代码不包含与tfidf(或tf-idf)相关的任何内容。例外是NLTK-contrib,其中包含TF-IDF的map-reduce implementation

  3. related question中提到了几个用于tf-idf的库。

    更新:按tf idftf_idf搜索,可以找到@yvespeirsman已找到的功能