用于术语提取的tf-idf背后的直觉

时间:2016-02-17 18:57:04

标签: machine-learning nlp tf-idf

我正在尝试使用 tf-idf 构建单词词典。但是,直觉上它没有意义。

如果 tf-idf 逆文档频率 idf )部分计算了一个术语与整个语料库的相关性,那么这意味着一些重要的词可能具有较低的相关性。

如果我们看一下法律文件的语料库,就像" license"或"合法"可能会出现在每个文档中。由于 idf ,这些条款的得分将非常低。但是,直观地说,这些术语应该有更高的分数,因为这些术语显然是合法的术语。

tf-idf 是否构建术语词典的方法不好?

1 个答案:

答案 0 :(得分:4)

是的,这些条款是合法条款。但是,tf-idf不会尝试评估它们是否与特定域相关。它们可以帮助您破碎该域中的文档。如果在每个文档中都出现类似“合法”的术语,则它们无法帮助分类者将这些文档区分开来。但是,如果您将法律文件与随机文件组合在一起。你会发现他们突然变得非常相关。正是因为他们允许你分开法律文件和其他文件。

在实践中,它们通常用于删除“种类”的停用词。例如,“the”出现在每个文档中,并没有任何意义。

tf-idf是否适合构建字典在很大程度上取决于你以后用这本词典做什么。