数据集的模糊指数

时间:2011-12-09 01:52:30

标签: sql search lucene fuzzy-search

我遇到了一个问题,我需要在哪里提供搜索功能 用户可以提供“他/她知道的尽可能多的信息”。然后应该是这个数据集 匹配不同的查找表以确定我是否可靠地关联它 对抗我们当地的一个身份证。例如,如果我们有此搜索查询的记录。 大多数领域都是模糊的。

示例: 一个字段可以是名称(用户只有名字)和另一个街道 用户只有街道号码。

数据集中等大小(约10M条目)。

这个问题的最佳方法是什么? SQL + soundex? lucene的?

谢谢!

1 个答案:

答案 0 :(得分:0)

您可以在Lucene中对文档进行评分并比较相似度。像Lucene这样的反向索引工具应该比SQL中传统的键值查找更快,更具可伸缩性。