如何在文本分类中使用tfidf?

时间:2019-01-24 09:48:00

标签: nlp tf-idf

我有一个包含300000行的数据集,其中每一行都是文章标题,我想查找此数据集的特征,例如tftfidf。 我能够计算此数据集中的单词(tf),例如:
单词频率
must 10000
amazing 9999

word percentage
must 0.2
amazing 0.19

但是如何计算idf,我的意思是我需要找到一些功能来将该数据集与其他功能区分开?或tfidf如何用于文本分类?

1 个答案:

答案 0 :(得分:0)

在您的情况下,文档是单个文章标题。因此,文档反转频率(IDF)为log(300000/num(t))。其中num(t)是包含术语t的文档(文章标题)的数量。

请参见https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Inverse_document_frequency_2