我是Hadoop世界的新手,目前我正在使用Pig脚本进行探索。我必须写一个猪脚本,找出2个文件之间的常见数据。
对于Instanace,
SampleFileA 有数据:
1,A ...,M
2,B,25,F
以上数据将第1列描述为 ID ,将第2列描述为名称,将第3列描述为年龄,将第4列描述为性别
SampleFileB 具有相同的数据:
1,A ...,M
2,B,25,F
我尝试了各种连接但由于第一条记录的第3列中存在空白或空值,因此无法获得预期的输出。
预期输出为:
(2,B,25,F),(2,B,25,F) (1,A ...,M),(1,A ,, M)
但我得到的是:
(2,B,25,F),(2,B,25,F), 中,(1,A ,, M)
我不确定输出中的空数据来自何处。
我们非常感谢您的帮助。