应用错误收集

所以我们在数据库中有两个表（Oracle）：

表B足够小，我们可以将它放在内存中，表A不是。

数据“不好”，不一致，非结构化。名称和地址拼写错误或不同，缩写等等。

被认为是一场比赛，有各种各样的标准，所有标准都归结为：

(A AND B AND C) AND (X OR Y OR Z)

最糟糕的方法是比较表A和表B中所有内容的强力， n ^ 2 方法。

考虑到这将是 ~3.75万亿次操作，鉴于我们的基础设施存在限制，这对我们来说并不是真正的选择。也就是说，我们今天无法将这种规模的东西并行化。

那么，数据库本身或内存中有哪些替代方法？

我们再次将表B中的所有内容都放在内存中，但我不确定将它放在数据库之外是否有任何好处。