应用错误收集

时间：2015-04-20 23:24:46

标签： lucene

我可能会问一个名字，它与贝叶斯统计数据有关。

我有一个街道地址数据库，我正在使用Lucene来匹配用户输入的地址（如果你需要一个类比，假装我在Google地图上工作）。

鉴于“西北大道”和“西北岸大道”都是有效的街道名称，在搜索“1000”时，如何让Lucene在“2000 West North Avenue”上获得高于“1000 West North Shore Avenue”的分数^ 0.001西北大道“？

1000 ^ 0.001意味着，该数字应该用于打破平局，但是否则匹配街道名称比将正确的数字与错误的街道匹配更重要。

不幸的是，在这个例子中，1000 ^ 0.001导致错误匹配（北岸）超越正确的匹配。

使用什么评分算法可以让Lucene在搜索中未指定索引字词时向下调整分数，罕见字词的重量超过常用字词？

答案 0 :(得分：1)

我会通过仔细标记街道名称来解决这个问题。例如，你可以这样做：