应用错误收集

我是文本挖掘的新手。我试图从给定的文档集中提取重要的单词。我正在讨论是否应该使用idf score或relative frequency来检测语料库中的重要单词。重要的是，我的意思是最能代表语料库的词。

据我了解，idf score对于检测rare words而非important words非常有用。因此，我倾向于relative frequency这个词，以确定它在语料库中的重要性，但我不确定。

我很想知道这两个分数的使用差异。或者有没有更好的方法从语料库中提取重要的单词？