我遇到了一个问题,我需要在哪里提供搜索功能 用户可以提供“他/她知道的尽可能多的信息”。然后应该是这个数据集 匹配不同的查找表以确定我是否可靠地关联它 对抗我们当地的一个身份证。例如,如果我们有此搜索查询的记录。 大多数领域都是模糊的。
示例: 一个字段可以是名称(用户只有名字)和另一个街道 用户只有街道号码。
数据集中等大小(约10M条目)。
这个问题的最佳方法是什么? SQL + soundex? lucene的?
谢谢!
答案 0 :(得分:0)
您可以在Lucene中对文档进行评分并比较相似度。像Lucene这样的反向索引工具应该比SQL中传统的键值查找更快,更具可伸缩性。