获取检查数据重叠量的最佳方法

时间:2018-08-07 08:08:34

标签: database parallel-processing mapreduce amazon-emr amazon-athena

我有两个csv文件,每个文件有100m-1b行,每行1列,一个字符串。我想知道两个值之间共享多少值。

这不是一次性的事情,它是我偶尔(一天/一周)需要做的事情,因此运行时间应该合理(我想我希望这在一个小时内)。

我的环境是aws,我曾尝试为此使用雅典娜,但遇到了内存问题。我可以将它加载到mysql之类的服务器上,但是那样的话它将是一个单线程,并且扩展性不强(不谈论运行时)。

  • 对此有什么好的方法,可以扩展?这种问题有一个标准名称吗?我觉得使用map reduce可能是一件微不足道的任务

0 个答案:

没有答案