如何将猪串分成等份?

时间:2016-03-13 13:51:48

标签: apache-pig

我有一个输入文件ABCDEFGHIJKLMNOPQRSTUVWX。使用pig命令如何生成一个看起来像这样的文本文件。 ABC DEF GHI JKL MNO等。

编辑:进一步澄清

我有一个文件,其中包含单行中的String数据类型的数据。我想根据用户定义的长度拆分此字符串。

例如,字符串可能是asdfghjklasdfghjkl,用户将字符串长度定义为4.

然后我希望我的输出为asdf ghjk lasd fghj等等。此外,我希望这项工作可以减少地图,因为输入数据将是巨大的。

1 个答案:

答案 0 :(得分:0)

这个问题对于确切要求是非常不清楚的。

所以没有详细说明,这就是我要做的事情:

  1. 编写一个简单的python函数,它接受一行并将其拆分为“相等的部分”
  2. 在猪中,通过此用户定义的函数流式传输
  3. 注释完成输入为1行

    后更新

    我认为Pig没有能力有效地处理这个因为你只有一条输入线,并且猪通过分配(输入)线来并行化。

    然而,你的操作非常简单,人们会期望即使没有mapreduce的简单循环也足够快,考虑尝试一下。 (之后你会有很多短线,而Pig可以在接下来的步骤中完美处理它。)