idf vs相对频率来提取语料库的重要单词

时间:2017-08-15 15:41:38

标签: python r text-mining tf-idf trend

我是文本挖掘的新手。我试图从给定的文档集中提取重要的单词。我正在讨论是否应该使用idf scorerelative frequency来检测语料库中的重要单词。重要的是,我的意思是最能代表语料库的词。

据我了解,idf score对于检测rare words而非important words非常有用。因此,我倾向于relative frequency这个词,以确定它在语料库中的重要性,但我不确定。

我很想知道这两个分数的使用差异。或者有没有更好的方法从语料库中提取重要的单词?

0 个答案:

没有答案