在Pig Latin中使用多个数据

时间:2012-11-15 12:03:24

标签: hadoop apache-pig

我可以在猪拉丁语中做这样的事吗?

data1 = LOAD 'hadoop/text1.txt' AS (line:chararray);
data2 = LOAD 'hadoop/text2.txt' AS (line:chararray);

mixed = FOREACH data1, data2 GENERATE data1:line, data2:line;

1 个答案:

答案 0 :(得分:2)

一般来说,按照你要求的方式进行操作是没有意义的,因为数据将由多个映射器加载,也许一次只能加载一行。无法保证相同的映射器将看到相应的行,并且无法保证映射器知道它们正在读取的块的哪一行。正如WinnieNicklaus所提到的,最好的办法是标记线条并进行连接。