如何在Oracle中有效地“模糊匹配”关于人的大数据集?

时间:2018-02-20 20:56:57

标签: sql database oracle bigdata

所以我们在数据库中有两个表(Oracle):

  • 表A(约1,500万行)
  • 表B(~250k行)

表B足够小,我们可以将它放在内存中,表A不是。

数据“不好”,不一致,非结构化。名称和地址拼写错误或不同,缩写等等。

被认为是一场比赛,有各种各样的标准,所有标准都归结为:

(A AND B AND C) AND (X OR Y OR Z)

最糟糕的方法是比较表A和表B中所有内容的强力, n ^ 2 方法。

考虑到这将是 ~3.75万亿次操作,鉴于我们的基础设施存在限制,这对我们来说并不是真正的选择。也就是说,我们今天无法将这种规模的东西并行化。

那么,数据库本身或内存中有哪些替代方法?

我们再次将表B中的所有内容都放在内存中,但我不确定将它放在数据库之外是否有任何好处。

0 个答案:

没有答案