我有一个包含300000行的数据集,其中每一行都是文章标题,我想查找此数据集的特征,例如tf
或tfidf
。
我能够计算此数据集中的单词(tf),例如:
单词频率
must 10000
amazing 9999
或word percentage
:
must 0.2
amazing 0.19
但是如何计算idf
,我的意思是我需要找到一些功能来将该数据集与其他功能区分开?或tfidf
如何用于文本分类?
答案 0 :(得分:0)
在您的情况下,文档是单个文章标题。因此,文档反转频率(IDF)为log(300000/num(t))
。其中num(t)
是包含术语t
的文档(文章标题)的数量。
请参见https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Inverse_document_frequency_2