应用错误收集

Pig在单个文件中写入太多记录

时间：2014-06-27 09:34:42

标签： apache-pig

我正在阅读一个包含440万条记录的大文件。我想把它分成两个记录，包含400万条记录和一些基于特定内容的.4百万条记录，然后想要存储它们。

逻辑是：

阅读一份包含440万条记录的大文件。
将其分为两个关系A和B（1:10比率）
联盟那些关系C =联盟A，B
商店C。

问题是C将包含两个part-m- *文件。一个有400万条记录，另一条有400万条记录。

现在，问题是需要花费大量时间来编写这些文件。如果我不做联合并将A和B单独存储在两个文件中，它会更快。我希望映射器输出速度很快。

为此，我们需要更多的映射器，我希望映射器输出，即使特定关系被写入多个文件。

我可以确保这个吗？

0 个答案:

没有答案