应用错误收集

如何在文本分类中使用tfidf？

时间：2019-01-24 09:48:00

标签： nlp tf-idf

我有一个包含300000行的数据集，其中每一行都是文章标题，我想查找此数据集的特征，例如tf或tfidf。我能够计算此数据集中的单词（tf），例如：
单词频率
must 10000
amazing 9999

或word percentage：
must 0.2
amazing 0.19

但是如何计算idf，我的意思是我需要找到一些功能来将该数据集与其他功能区分开？或tfidf如何用于文本分类？

1 个答案:

答案 0 :(得分：0)

在您的情况下，文档是单个文章标题。因此，文档反转频率（IDF）为log(300000/num(t))。其中num(t)是包含术语t的文档（文章标题）的数量。

请参见https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Inverse_document_frequency_2