如何使用tf-idf选择停用词? (非英语语料库)

时间:2013-06-04 21:08:06

标签: information-retrieval text-mining stop-words tf-idf

我设法评估给定语料库的tf-idf function。如何找到每个文档的停用词和最佳单词?我理解给定单词和文档的低tf-idf意味着它不是选择该文档的好词。

2 个答案:

答案 0 :(得分:10)

停止词是那些在文档中非常常见的词,因此失去了代表性。观察这一点的最佳方法是测量术语出现的文档数量,并过滤那些出现在50%以上的文档,或前500或某种类型的阈值,您必须调整。

文档中最好(如更具代表性)的术语是那些具有更高tf-idf的术语,因为这些术语在文档中很常见,而在集合中很少见。

快速说明,正如@Kevin指出的那样,集合中非常常见的术语(即停止词)无论如何都会产生非常低的tf-idf。但是,它们会改变一些计算,如果你认为它们是纯噪声(根据任务可能不正确),这将是错误的。此外,如果包含它们,您的算法会稍慢。

编辑: 正如@FelipeHammel所说,你可以直接使用IDF(记得颠倒顺序)作为与df(反向)成比例的度量。这对于排名目的而言完全相同,因此选择顶部的“k”项。但是,不可能使用它来根据比率进行选择(例如,出现在超过50%的文档中的单词),尽管简单的阈值处理可以解决这个问题(即选择idf低于特定值的术语) 。通常,使用固定数量的术语。

我希望这会有所帮助。

答案 1 :(得分:1)

摘自《信息检索入门》一书:

tf-idf为术语t分配了文档d中的权重,即

  1. t在少数文档中多次出现时最高(因此对这些文档具有较高的区分能力)
  2. term在文档中出现的次数较少或在许多文档中发生的次数较低(从而提供了不太明显的相关性信号);
  3. 几乎所有文档中都出现term时最低。

tf-idf最低的单词可以视为停用词。