Question

我有两个元组（字符串，大字符 - 每个都有几百万个字符串），我想在一个元组中找到元素，但在Hadoop Pig中找不到另一个元组。想知道好的代码是否引用？

示例输入，

tuple 1: (Hello, World, Hadoop, Pig, Stackoverflow)
tuple 2: (Hello, World, Hadoop, Spark, Python)

示例输出，

(Pig, Stackoverflow)

提前谢谢，林

Answer 1

这样做的一种方法是将该元组变成一个元组包，每个字符串都是一个独立的元组。然后，您可以使用http://datafu.incubator.apache.org/docs/datafu/guide/set-operations.html处的设置差异操作来查找一组中的字符串，而不是另一组中的字符串。