Pig在单个文件中写入太多记录

时间:2014-06-27 09:34:42

标签: apache-pig

我正在阅读一个包含440万条记录的大文件。我想把它分成两个记录,包含400万条记录和一些基于特定内容的.4百万条记录,然后想要存储它们。

逻辑是:

  1. 阅读一份包含440万条记录的大文件。
  2. 将其分为两个关系A和B(1:10比率)
  3. 联盟那些关系C =联盟A,B
  4. 商店C。
  5. 问题是C将包含两个part-m- *文件。一个有400万条记录,另一条有400万条记录。

    现在,问题是需要花费大量时间来编写这些文件。如果我不做联合并将A和B单独存储在两个文件中,它会更快。我希望映射器输出速度很快。

    为此,我们需要更多的映射器,我希望映射器输出,即使特定关系被写入多个文件。

    我可以确保这个吗?

0 个答案:

没有答案