scikit-learn
和gensim
中有TF-IDF实施。
有简单的实现Simple implementation of N-Gram, tf-idf and Cosine similarity in Python
为避免重新发明轮子,
在这篇博文中,它说NLTK没有它。 这是真的吗? http://www.bogotobogo.com/python/NLTK/tf_idf_with_scikit-learn_NLTK.php
答案 0 :(得分:9)
答案 1 :(得分:2)
我想,有足够的证据可以证明在NLTK中不存在TF-IDF:
不幸的是,计算tf-idf在NLTK中不可用,所以我们会这样做 使用另一个数据分析库,scikit-learn
更重要的是,源代码不包含与tfidf(或tf-idf)相关的任何内容。例外是NLTK-contrib,其中包含TF-IDF的map-reduce implementation。
related question中提到了几个用于tf-idf的库。