Question

以下代码运行良好，但是当我已经有两个现有的包（带有别名，假设S1和S2代表两个现有的两个包）时，想知道如何调用UDF setDifference来生成设置差异？我想如果我手动构建一个额外的包，使用我现有的输入包（S1和S2），它将是额外的开销吗？

register datafu-1.2.0.jar;
define setDifference datafu.pig.sets.SetDifference();

-- ({(3),(4),(1),(2),(7),(5),(6)} \t {(1),(3),(5),(12)})
A = load 'input.txt' AS (B1:bag{T:tuple(val:int)},B2:bag{T:tuple(val:int)});

F1 = foreach A generate B1;
F2 = foreach A generate B2;

differenced = FOREACH A {
  -- input bags must be sorted
  sorted_b1 = ORDER B1 by val;
  sorted_b2 = ORDER B2 by val;
  GENERATE setDifference(sorted_b1,sorted_b2);
}

-- produces: ({(2),(4),(6),(7)})
DUMP differenced;

更新

问题是，假设我已经有两个包，如何调用UDF setDifference来获取设置差异？我是否需要建造另一个包含两个独立袋子的超级包？感谢。

提前谢谢，林

Answer 1

我没有看到UDF调用的任何开销问题。

参考：http://datafu.incubator.apache.org/docs/datafu/guide/set-operations.html，我们有一个使用SetDifference方法的例子。

根据API（http://datafu.incubator.apache.org/docs/datafu/1.2.0/datafu/pig/sets/SetDifference.html），SetDifference方法将包作为输入并发出它们之间的差异。

N.B。请注意输入行李必须进行分类。

在共享的示例代码段中，我认为不需要以下代码段

F1 = foreach A generate B1;
F2 = foreach A generate B2;

Hadoop Pig UDF调用问题

1 个答案: