应用错误收集

时间：2008-10-21 18:53:36

标签： algorithm statistics nlp tf-idf

TF-IDF (term frequency - inverse document frequency)是信息检索的主要内容。虽然它不是一个合适的模型，但当新术语被引入语料库时似乎会崩溃。当查询或新文档有新术语时，人们如何处理它，特别是如果它们是高频率的话。在传统余弦匹配下，这些对总比赛没有影响。

答案 0 :(得分：2)

呃，不，不会崩溃。

说我有两个文件，一个是“黄鼠狼”和B“奶酪地鼠”。如果我们实际上将它们表示为向量，它们可能看起来像：

A [1,1,0,0]
B [0,0,1,1]

如果我们在索引文件中分配了这些向量，是的，我们在添加新术语时遇到了问题。但它的诀窍是，该向量永远不存在。关键是inverted index。

对于不影响余弦匹配的新术语，根据您的意思，这可能是真的。如果我用“marmoset kungfu”查询我的（A，B）语料库，则语料库中既不存在mar猴也不存在功夫。因此，表示我的查询的向量将与集合中的所有文档正交，并获得错误的余弦相似度得分。但是考虑到没有一个术语匹配，这似乎很合理。

答案 1 :(得分：1)

当你谈到“分解”时，我认为你的意思是新术语对相似性度量没有影响，因为它们在原始词汇表定义的向量空间中没有任何表示。

处理这种平滑问题的一种方法是考虑将词汇量修复为较小的词汇表，并将所有少于特定阈值的词视为属于特殊_UNKNOWN_词。

但是，我认为你对“分解”的定义并不清楚;你能澄清一下你的意思吗？如果你能解决这个问题，也许我们可以讨论如何解决这些问题。