如何比较PIG中的两列并删除任何相同的值,无论大小写如何

时间:2017-01-12 18:33:21

标签: hadoop apache-pig

我有3列,一个id列和两个名称列。有时,2个名称列的值相同,但在一列中为一个大写,在另一列中为小写。如何删除值相同(或具有相似字符)但外壳不同的那些?

例如:

a =加载txt文件 a = foreach生成id,name1,name2

当前输出:

id1, james, JAMES
id2, tom, Tom
id3, Jim, Bob
id4, Bill, billy

预期输出:仅低于此结果

a =比较name1和name2,如果name1中的任何类似字符也在名称2中,请将其过滤掉

id3,吉姆,鲍勃

感谢您的帮助!

1 个答案:

答案 0 :(得分:1)

假设您已在关系A中加载数据,且名称的类型为chararray。

A = FILTER A BY (LOWER(A.$1) != LOWER(A.$2))
DUMP A;