向量空间模型中查询向量的精确定义

时间:2014-02-01 22:03:59

标签: search vector lucene tf-idf

维基百科对矢量空间模型给出了很好的解释。

http://en.wikipedia.org/wiki/Vector_space_model

除了跳过一个对我不自我解释的部分。这是查询向量的定义。文字以

开头
d_j = ( w_{1,j} ,w_{2,j} , .... ,w_{t,j} )   // document vector
q = ( w_{1,q} ,w_{2,q} , ... ,w_{t,q} )    // query vector

并继续解释如何根据语料库中文档的tf-idf定义d_j。这一切都很好,但我无法将该解释转换为查询向量。在idf部分,你将如何应用

| {d' E D | t E d' }| ? ( I am using E to represent 'member of set'). 

在查询向量的情况下,即使术语是查询的一部分,查询本身也不是语料库中的文档,因此上述规范化术语没有等价物。

向量空间模型中的任何专家都能够澄清吗?

1 个答案:

答案 0 :(得分:0)

VSM背后的一个关键思想是,我们将查询和文档简单地视为同一空间中的“词袋”。这意味着为了创建查询向量,我们也可以将其视为文档,因此语料库的idf也可用于此。

重要的是要注意有各种评分方案,查询向量的评分方案不必与文档向量的评分方案相匹配。

这是一个很好的解释: http://nlp.stanford.edu/IR-book/html/htmledition/queries-as-vectors-1.html

我认为阅读整个第6章对理解VSM非常有帮助,如果你有兴趣,可以在后面的章节中找到更多高级主题。