超过十亿条记录的模糊匹配

时间:2018-08-24 04:08:19

标签: oracle levenshtein-distance fuzzy-search utl-match

我在Oracle中拥有超过10亿条记录,我需要对成千上万个条目的列表进行有效的模糊匹配,并报告匹配率> 95%的匹配项。参考记录已建立索引。我知道oracle为Levenshtein距离模糊匹配提供了UTL_MATCH包,对于这么大的数据集,我如何在oracle中有效地做到这一点? 假设我将参考数据集存储在文件集中并对它们进行索引,是否有有效的方法在python或java中做同样的事情?

0 个答案:

没有答案