应用错误收集

用于术语提取的tf-idf背后的直觉

时间：2016-02-17 18:57:04

标签： machine-learning nlp tf-idf

我正在尝试使用 tf-idf 构建单词词典。但是，直觉上它没有意义。

如果 tf-idf 的逆文档频率（ idf ）部分计算了一个术语与整个语料库的相关性，那么这意味着一些重要的词可能具有较低的相关性。

如果我们看一下法律文件的语料库，就像＆＃34; license＆＃34;或＆＃34;合法＆＃34;可能会出现在每个文档中。由于 idf ，这些条款的得分将非常低。但是，直观地说，这些术语应该有更高的分数，因为这些术语显然是合法的术语。

tf-idf 是否构建术语词典的方法不好？

1 个答案:

答案 0 :(得分：4)

是的，这些条款是合法条款。但是，tf-idf不会尝试评估它们是否与特定域相关。它们可以帮助您破碎该域中的文档。如果在每个文档中都出现类似“合法”的术语，则它们无法帮助分类者将这些文档区分开来。但是，如果您将法律文件与随机文件组合在一起。你会发现他们突然变得非常相关。正是因为他们允许你分开法律文件和其他文件。

在实践中，它们通常用于删除“种类”的停用词。例如，“the”出现在每个文档中，并没有任何意义。

tf-idf是否适合构建字典在很大程度上取决于你以后用这本词典做什么。