应用错误收集

我正在尝试编写一个自由文本搜索算法来查找墙上的特定帖子（类似Facebook使用的那种墙）。用户可以在搜索字段中编写一些单词并对包含单词的帖子进行点击;根据匹配得分，最佳匹配在顶部，然后其他帖子按降序排列。

我正在使用编辑距离（Levenshtein）“e（x，y）= e”来计算每个帖子与查询词“x”相比的得分，并根据以下内容发布单词“y”：得分（ x，y）= 2 ^（2 - e）（1 - min（e，| x |）/ | x |），其中“| x |”是查询字中的字母数。

帖子中的每个单词都会影响该特定帖子的总分。当帖子的大小大致相同时，这种方法似乎运作良好，但某些时候某些大型帖子只是在其中包含大量单词而实际上与查询不相关时才能获得分数。

我是以错误的方式处理这个问题，还是有某种方法来规范我没想过的分数？