使用Pig脚本查找常用元素

时间:2014-09-20 13:02:14

标签: hadoop apache-pig

我是Hadoop世界的新手,目前我正在使用Pig脚本进行探索。我必须写一个猪脚本,找出2个文件之间的常见数据。

对于Instanace,

SampleFileA 有数据:

1,A ...,M

2,B,25,F

以上数据将第1列描述为 ID ,将第2列描述为名称,将第3列描述为年龄,将第4列描述为性别

SampleFileB 具有相同的数据:

1,A ...,M

2,B,25,F

我尝试了各种连接但由于第一条记录的第3列中存在空白或空值,因此无法获得预期的输出。

预期输出为:

(2,B,25,F),(2,B,25,F) (1,A ...,M),(1,A ,, M)

但我得到的是:

(2,B,25,F),(2,B,25,F), 中,(1,A ,, M)

我不确定输出中的空数据来自何处。

我们非常感谢您的帮助。

0 个答案:

没有答案