Pig如何通过一个仅限地图的作业将结果存储到多个位置?

时间:2012-07-02 19:29:41

标签: hadoop apache-pig

我是猪和hadoop的初学者。我试图了解这个简单的猪脚本中幕后发生的事情。我正在阅读一些数据,将其分成三个新关系,并将每个数据存储在不同的目录中。该脚本在我的psuedo分布式hadoop安装上运行,作为一个仅限映射的作业。

我一直在尝试弄清楚如何在一个只有地图的作业中在普通的Java Map / Reduce中实现它。实现过滤/拆分是微不足道的,但我不知道如何获得一个仅映射工作来向不同的输出发送不同的键/值对。想想看,我不知道我怎么能在一个完整的Map / Reduce工作中将输出发送到多个地方。

rawTweets = LOAD 'geotaggedTweets' USING PigStorage(',') AS (...);

SPLIT rawTweets INTO usTweets IF country == 'US', gbTweets IF country == 'GB', idTweets IF country == 'ID';

STORE usTweets INTO 'testUSTweets' USING PigStorage(',');
STORE gbTweets INTO 'testGBTweets' USING PigStorage(',');
STORE idTweets INTO 'testIDTweets' USING PigStorage(',');

编辑:Ugghh ......我已经完成了。在我完成编写和提交SO问题的整个过程之前,我似乎无法提出问题的答案。我正在寻找的hadoop类是MultipleOutputs

0 个答案:

没有答案