应用错误收集

我正在尝试协调多个数据集以确定与共识的差异。可能有100组相同的数据，每组可能有30,000条记录。每个集合具有相同的列但可能没有相同的行，即Person1的记录可能只存在于一个集合中，或者可能存在于所有集合中。我想只识别不同的记录并报告差异。可能更容易举个例子。

SET1：

人性别DOB工资等

Person1 M 12/12/2000 100000等

Person2 F 11/11/1999 200000等

SET2：

人性DOB工资等

Person2 F 11/11/1999 250000等

Person3 M 10/10/1998 150000等

SET3：

人性DOB工资等

Person1 M 12/12/2000 100000等

Person2 F 11/11/1999 250000等

Person3 M 10/10/1998 150000等

我想报告Set1与Person2的薪水不同于一致（Set2和Set3有250000但Set1有200000）。对于Person1或Person 3，不会报告任何内容，因为所有集合都具有相同的信息。

最好的技术是什么？带有SQL语句的关系数据库？某种矢量DB？ Hadoop的？统计软件？

提前致谢，

罗宾