我是文本挖掘的新手。我试图从给定的文档集中提取重要的单词。我正在讨论是否应该使用idf score
或relative frequency
来检测语料库中的重要单词。重要的是,我的意思是最能代表语料库的词。
据我了解,idf score
对于检测rare words
而非important words
非常有用。因此,我倾向于relative frequency
这个词,以确定它在语料库中的重要性,但我不确定。
我很想知道这两个分数的使用差异。或者有没有更好的方法从语料库中提取重要的单词?