我有两个结构相同的数据结构:
{(id, (record1, record2, record3))}
我希望以record1
的价值加入他们。为了做到这一点,我写了这个脚本:
data_1_group = group data_1 by $1.record1;
data_2_group = group data_2 by $1.record1;
jj = join data_1_group by group, data_2_group by group;
但是,由于data_1
和data_2
都包含数百万条记录,而record1
只能假设20个不同的值,因此这些组非常大且脚本内存不足并失败
我该如何解决这个问题?