我正在通过所有现有的问题帖子,但无法获得相关的东西。
我的文件包含数百万条人名,姓氏,地址1,地址2,国家代码,出生日期的记录 - 我想每天查看我的客户名单(我的客户名单也可以获得)每日更新,文件也每天更新)。
对于名字和姓氏,我想模糊匹配(可能是lucene fuzzyquery / levenshtein距离90%匹配),对于剩余字段国家和出生日期,我想要完全匹配。
我是Lucene的新手,但通过查看帖子的数量,看起来很可能。
我的问题是:
还有其他方法可以实现吗?
答案 0 :(得分:4)
Rushik,这里有一些想法:
答案 1 :(得分:2)
有关此主题的一些学术论文非常值得一读(谷歌免费提供PDF文件):
您还应该考虑以下库/框架:
(未来访客已回答。)