我正在阅读《信息检索简介》(Christopher Manning)一书,在第6章介绍“嫉妒八卦”查询时表示不满意,该查询表示关联的向量单位为[0, 0.707,0.707](https://nlp.stanford.edu/IR-book/html/htmledition/queries-as-vectors-1.html)考虑到情感,嫉妒和八卦。 我尝试通过假设以下条件计算tf idf来计算它: -对于嫉妒和八卦,Tf等于1 -如果我们将其计算为log(N / df)且N = 1(我只有1个查询,这是我的文档),则Idf始终等于0;对于嫉妒和八卦,df = 1 => log(1)= 0 由于idf为0,因此证明tf idf为0。 因此,我决定用原始tf除以欧几里得长度来计算查询向量的每个权重。在这种情况下,欧几里德长度为sqrt(1 + 1)= 1。 我无法获得用来确定[0,0.707,0.707]是查询向量的公式。 有人能帮我吗?
答案 0 :(得分:0)
我还没有解决这个问题,但是我认为问题可能在于sqrt(1+1)
是sqrt(2)
,所以当您进行归一化时,每个1都会变成1/sqrt(2) = 0.707
。