在Hadoop Pig

时间:2015-09-03 20:47:13

标签: hadoop join apache-pig

我有两个元组(字符串,大字符 - 每个都有几百万个字符串),我想在一个元组中找到元素,但在Hadoop Pig中找不到另一个元组。想知道好的代码是否引用?

示例输入,

tuple 1: (Hello, World, Hadoop, Pig, Stackoverflow)
tuple 2: (Hello, World, Hadoop, Spark, Python)

示例输出,

(Pig, Stackoverflow)
提前谢谢, 林

1 个答案:

答案 0 :(得分:1)

这样做的一种方法是将该元组变成一个元组包,每个字符串都是一个独立的元组。然后,您可以使用http://datafu.incubator.apache.org/docs/datafu/guide/set-operations.html处的设置差异操作来查找一组中的字符串,而不是另一组中的字符串。