无法加入大型团体

时间:2014-03-09 10:41:35

标签: hadoop apache-pig

我有两个结构相同的数据结构:

{(id, (record1, record2, record3))}

我希望以record1的价值加入他们。为了做到这一点,我写了这个脚本:

data_1_group = group data_1 by $1.record1; 
data_2_group = group data_2 by $1.record1; 
jj = join data_1_group by group, data_2_group by group;

但是,由于data_1data_2都包含数百万条记录,而record1只能假设20个不同的值,因此这些组非常大且脚本内存不足并失败

我该如何解决这个问题?

0 个答案:

没有答案