SOLR搜索类似的条目

时间:2014-02-17 04:22:22

标签: solr

我有一张

的表格

Forename,lastname,Street,Street_number,ZIP,House和200 Properties

现在我希望有人在线输入数据,我发现使用模糊的条目最相似。例如他的姓氏可能是错的,或者他的姓,......

使用SOLR是否正确? 如果有80.000.000条目,这是一个问题吗?

致以最诚挚的问候,

1 个答案:

答案 0 :(得分:0)

将Solr用于您的用例是正确的,下面提供了如何将其用于用例。

模糊搜索以某种形式使用单词距离算法,因此它们在性能方面不是最好的。话虽如此,如果你使用的是Solr 4+,那么你应该得到最好的交易。性能得到提高by 100 times faster(但最多2个字母更改限制)。

对于使用超过2个字母的距离(在您的示例中,名字可能错误最多2个字符),您始终可以使用solr.EdgeNGramFilterFactory而不是模糊搜索来获得更好的性能。

对于80MM条目,通常建议使用带有或不带SolrCloud的多个Sharded索引。如果索引大小小于总RAM大小,它也是最佳性能。有关效果的更多信息,请参阅wiki