tf-idf和以前看不见的条款

时间:2008-10-21 18:53:36

标签: algorithm statistics nlp tf-idf

TF-IDF (term frequency - inverse document frequency)是信息检索的主要内容。虽然它不是一个合适的模型,但当新术语被引入语料库时似乎会崩溃。当查询或新文档有新术语时,人们如何处理它,特别是如果它们是高频率的话。在传统余弦匹配下,这些对总比赛没有影响。

2 个答案:

答案 0 :(得分:2)

呃,不,不会崩溃。

说我有两个文件,一个是“黄鼠狼”和B“奶酪地鼠”。如果我们实际上将它们表示为向量,它们可能看起来像:

A [1,1,0,0]
B [0,0,1,1]

如果我们在索引文件中分配了这些向量,是的,我们在添加新术语时遇到了问题。但它的诀窍是,该向量永远​​不存在。关键是inverted index

对于不影响余弦匹配的新术语,根据您的意思,这可能是真的。如果我用“marmoset kungfu”查询我的(A,B)语料库,则语料库中既不存在mar猴也不存在功夫。因此,表示我的查询的向量将与集合中的所有文档正交,并获得错误的余弦相似度得分。但是考虑到没有一个术语匹配,这似乎很合理。

答案 1 :(得分:1)

当你谈到“分解”时,我认为你的意思是新术语对相似性度量没有影响,因为它们在原始词汇表定义的向量空间中没有任何表示。

处理这种平滑问题的一种方法是考虑将词汇量修复为较小的词汇表,并将所有少于特定阈值的词视为属于特殊_UNKNOWN_词。

但是,我认为你对“分解”的定义并不清楚;你能澄清一下你的意思吗?如果你能解决这个问题,也许我们可以讨论如何解决这些问题。