我正在尝试协调多个数据集以确定与共识的差异。可能有100组相同的数据,每组可能有30,000条记录。每个集合具有相同的列但可能没有相同的行,即Person1的记录可能只存在于一个集合中,或者可能存在于所有集合中。我想只识别不同的记录并报告差异。可能更容易举个例子。
SET1:
SET2:
SET3:
我想报告Set1与Person2的薪水不同于一致(Set2和Set3有250000但Set1有200000)。对于Person1或Person 3,不会报告任何内容,因为所有集合都具有相同的信息。
最好的技术是什么?带有SQL语句的关系数据库?某种矢量DB? Hadoop的?统计软件?
提前致谢,
罗宾