在PIG中如何删除类似的值

时间:2017-01-12 23:02:50

标签: hadoop apache-pig

在我的猪脚本中,我有一个country1和country2的列以及一个id。在我的国家/地区,某些值与下面类似。如何过滤掉至少 2连续相同字符的类似值?

例如:

a = load file
a = generate id, country1, country2

输出:

id1, us, usa
id2, gb, gba
id3, in, ind
id4, in, usa

expected output:
id4, in, usa

1 个答案:

答案 0 :(得分:1)

使用SUBSTRING获取第3列的前两个字符,并将其与第2列值进行比较。

B = FILTER A BY (LOWER(A.$1) != SUBSTRING(LOWER(A.$2),0,2));
DUMP B;