Question

我想使用Apache Pig在两个列表中找到公共项的子集（= intersect）。

在SQL中，可接受的方式是使用内连接，例如：

C = SELECT * FROM A INNER JOIN B ON A.name=B.name;

但是，使用Pig中的所有高级选项（如DIFF，DataFu和SetIntersect），我不确定它是最好的方式（在性能，MapReduce范例等方面）。

因此，以下两个选项可行 - 但最佳做法是什么？

选项A：

grouped = COGROUP A BY name, B by name;
common = FOREACH grouped {
A1 = ORDER A BY name
B1 = ORDER B BY name
GENERATE SetIntersect(A1,B1);};

选项B：

grouped = COGROUP A BY name, B by name;
common = FOREACH grouped {
GENERATE SetIntersect(A.name,B.name);};

非常感谢任何帮助。

Answer 1

如果您的关系具有相同的模式，或者您只对一个字段（例如Name）感兴趣，我可以建议一种方法，对于非常大的文件，它将比SQL风格的JOIN快得多

a = LOAD 'Afile.txt' using PigStorage() as (name:chararray);
b = LOAD 'Bfile.txt' using PigStorage() as (name:chararray);
a_counters = foreach a generate *, 1 as from_a, 0 as from_b;
b_counters = foreach b generate *, 0 as from_a, 1 as from_b;
united = union a_counters, b_counters;
res = foreach (group united by name) generate group, SUM(united.from_a) as from_a, SUM(united.from_b) as from_b;
res = filter res by from_a >=1 and from_b>=1;

res现在只包含两个文件中的名称。这会生成一个MR作业。对于我的巨大文件（数十亿行，数十个字段），与使用JOIN的小时数相比，这种方法在几分钟内完成。

此方法将为每条记录创建一个指示符，表示它来自哪个文件。然后你'连接'这两个文件，并按名称汇总指标。仅存在于文件A中的名称将具有from_a＆gt; = 1和from_b == 0.仅存在于文件B中的名称将具有from_b＆gt; = 1和from_a == 0.两个文件中存在的名称将具有from_a ＆gt; = 1且from_b＆gt; = 1。

如何使用Apache Pig在两个包中找到常见项的子集？

1 个答案: