如何为bigram和trigram分配更多权重?

时间:2016-12-20 15:35:12

标签: data-mining information-retrieval n-gram

我必须使用n-gram(仅限uni,bi和tri)来匹配两篇研究论文的标题 我的主管已经问过我,在匹配时我必须为bigram匹配的术语分数赋予更多权重,而不是unigram匹配的术语分数和更多权重与trigram匹配的术语分数比bigram匹配的术语分数。 例如,两个双字母在标题中匹配,然后得分= 2 并且匹配两个tigrams然后得分= 2 我必须寻找一些值,然后将其乘以将增加trigram得分并降低bigram得分的分数 我查找了与此问题相关的研究论文,但我无法从那里得到任何帮助。 :(

任何人都可以给出一些可以解决问题的想法或一些链接吗?

1 个答案:

答案 0 :(得分:0)

插值中,我们总是混合来自所有N-gram估计量的概率估计,称重并组合trigram,bigram和unigram计数。 在简单的线性插值中,我们通过线性插值所有模型来组合不同的阶N-gram。因此,我们通过将unigram,bigram和trigram概率混合在一起来估计三元概率P(wn | wn-2wn-1),每个概率由λ加权:

Linear interpolation formula

使得λs总和为1: