Solr - 最近的匹配 - 此功能是否存在?

时间:2012-07-13 16:44:33

标签: solr full-text-search fingerprinting audio-fingerprinting

在比较存储在Solr数据存储区中的“指纹”类型数据时,Solr可以为您提供最接近的匹配。例如,

   eJyFk0uyJSEIBbcEyEeWAwj7X8JzfDvKnuTAJIojWACwGB4QeM  
   HWCw0vLHlB8IWeF6hf4PNC2QunX3inWvDCO9WsF7heGHrhvYV3qvPEu-  
   87s9ELLi_8J9VzknReEH1h-BOKRULBwyZiEulgQZZr5a6OS8tqCo00cd  
   p86ymhoxZrbtQdgUxQvX5sIlF_2gUGQUDbM_ZoC28DDkpKNCHVkKCgpd  
   OHf-wweX9adQycnWtUoDjABumQwbJOXSZNur08Ew4ra8lxnMNuveIem6  
   LVLQKsIRLAe4gbj5Uxl96RpdOQ_Noz7f5pObz3_WqvEytYVsa6P707Jz  
   j4Oa7BVgpbKX5tS_qntcB9G--1tc7ZDU1HamuDI6q07vNpQTFx22avyR

如果它出现的内容极为相似,是否可以找到此记录?它可以提供回信心分数吗?

2 个答案:

答案 0 :(得分:1)

一个直接的方法可能是使用a fuzzy search,并选择第一个命中(按分数),然后你需要检查命中是否匹配,可能通过测试你可以找到一些好的规则拇指。

但不确定perf是否会成为这种长令牌的问题。使用Lucene4.0,模糊性能得到很大改善。

答案 1 :(得分:0)

您可以尝试使用Ngram filter factory.进行试验您可以选择与匹配/类似指纹一致的最小/最大克大小。

如果你的minGramSize和maxGramSize范围很小,你可以匹配具有相似指纹的文档,而不必迭代误报。