协调多个数据集

时间:2015-08-21 14:34:30

标签: data-structures consensus

我正在尝试协调多个数据集以确定与共识的差异。可能有100组相同的数据,每组可能有30,000条记录。每个集合具有相同的列但可能没有相同的行,即Person1的记录可能只存在于一个集合中,或者可能存在于所有集合中。我想只识别不同的记录并报告差异。可能更容易举个例子。

SET1:

  • 人性别DOB工资等
  • Person1 M 12/12/2000 100000等
  • Person2 F 11/11/1999 200000等

    SET2:

  • 人性DOB工资等
  • Person2 F 11/11/1999 250000等
  • Person3 M 10/10/1998 150000等

    SET3:

  • 人性DOB工资等
  • Person1 M 12/12/2000 100000等
  • Person2 F 11/11/1999 250000等
  • Person3 M 10/10/1998 150000等

    我想报告Set1与Person2的薪水不同于一致(Set2和Set3有250000但Set1有200000)。对于Person1或Person 3,不会报告任何内容,因为所有集合都具有相同的信息。

    最好的技术是什么?带有SQL语句的关系数据库?某种矢量DB? Hadoop的?统计软件?

    提前致谢,

    罗宾

  • 0 个答案:

    没有答案