我可能会问一个名字,它与贝叶斯统计数据有关。
我有一个街道地址数据库,我正在使用Lucene来匹配用户输入的地址(如果你需要一个类比,假装我在Google地图上工作)。
鉴于“西北大道”和“西北岸大道”都是有效的街道名称,在搜索“1000”时,如何让Lucene在“2000 West North Avenue”上获得高于“1000 West North Shore Avenue”的分数^ 0.001西北大道“?
1000 ^ 0.001意味着,该数字应该用于打破平局,但是否则匹配街道名称比将正确的数字与错误的街道匹配更重要。
不幸的是,在这个例子中,1000 ^ 0.001导致错误匹配(北岸)超越正确的匹配。
使用什么评分算法可以让Lucene在搜索中未指定索引字词时向下调整分数,罕见字词的重量超过常用字词?
答案 0 :(得分:1)
我会通过仔细标记街道名称来解决这个问题。例如,你可以这样做: