我必须使用n-gram(仅限uni,bi和tri)来匹配两篇研究论文的标题 我的主管已经问过我,在匹配时我必须为bigram匹配的术语分数赋予更多权重,而不是unigram匹配的术语分数和更多权重与trigram匹配的术语分数比bigram匹配的术语分数。 例如,两个双字母在标题中匹配,然后得分= 2 并且匹配两个tigrams然后得分= 2 我必须寻找一些值,然后将其乘以将增加trigram得分并降低bigram得分的分数 我查找了与此问题相关的研究论文,但我无法从那里得到任何帮助。 :(
任何人都可以给出一些可以解决问题的想法或一些链接吗?