我有一张
的表格Forename,lastname,Street,Street_number,ZIP,House和200 Properties
现在我希望有人在线输入数据,我发现使用模糊的条目最相似。例如他的姓氏可能是错的,或者他的姓,......
使用SOLR是否正确? 如果有80.000.000条目,这是一个问题吗?
致以最诚挚的问候,
答案 0 :(得分:0)
将Solr用于您的用例是正确的,下面提供了如何将其用于用例。
模糊搜索以某种形式使用单词距离算法,因此它们在性能方面不是最好的。话虽如此,如果你使用的是Solr 4+,那么你应该得到最好的交易。性能得到提高by 100 times faster(但最多2个字母更改限制)。
对于使用超过2个字母的距离(在您的示例中,名字可能错误最多2个字符),您始终可以使用solr.EdgeNGramFilterFactory
而不是模糊搜索来获得更好的性能。
对于80MM条目,通常建议使用带有或不带SolrCloud的多个Sharded索引。如果索引大小小于总RAM大小,它也是最佳性能。有关效果的更多信息,请参阅wiki