我有两个元组(字符串,大字符 - 每个都有几百万个字符串),我想在一个元组中找到元素,但在Hadoop Pig中找不到另一个元组。想知道好的代码是否引用?
示例输入,
tuple 1: (Hello, World, Hadoop, Pig, Stackoverflow)
tuple 2: (Hello, World, Hadoop, Spark, Python)
示例输出,
(Pig, Stackoverflow)
提前谢谢,
林
答案 0 :(得分:1)
这样做的一种方法是将该元组变成一个元组包,每个字符串都是一个独立的元组。然后,您可以使用http://datafu.incubator.apache.org/docs/datafu/guide/set-operations.html处的设置差异操作来查找一组中的字符串,而不是另一组中的字符串。