TF-IDF (term frequency - inverse document frequency)是信息检索的主要内容。虽然它不是一个合适的模型,但当新术语被引入语料库时似乎会崩溃。当查询或新文档有新术语时,人们如何处理它,特别是如果它们是高频率的话。在传统余弦匹配下,这些对总比赛没有影响。
答案 0 :(得分:2)
呃,不,不会崩溃。
说我有两个文件,一个是“黄鼠狼”和B“奶酪地鼠”。如果我们实际上将它们表示为向量,它们可能看起来像:
A [1,1,0,0]
B [0,0,1,1]
如果我们在索引文件中分配了这些向量,是的,我们在添加新术语时遇到了问题。但它的诀窍是,该向量永远不存在。关键是inverted index。
对于不影响余弦匹配的新术语,根据您的意思,这可能是真的。如果我用“marmoset kungfu”查询我的(A,B)语料库,则语料库中既不存在mar猴也不存在功夫。因此,表示我的查询的向量将与集合中的所有文档正交,并获得错误的余弦相似度得分。但是考虑到没有一个术语匹配,这似乎很合理。
答案 1 :(得分:1)
当你谈到“分解”时,我认为你的意思是新术语对相似性度量没有影响,因为它们在原始词汇表定义的向量空间中没有任何表示。
处理这种平滑问题的一种方法是考虑将词汇量修复为较小的词汇表,并将所有少于特定阈值的词视为属于特殊_UNKNOWN_
词。
但是,我认为你对“分解”的定义并不清楚;你能澄清一下你的意思吗?如果你能解决这个问题,也许我们可以讨论如何解决这些问题。