标签: apache-pig
我正在阅读一个包含440万条记录的大文件。我想把它分成两个记录,包含400万条记录和一些基于特定内容的.4百万条记录,然后想要存储它们。
逻辑是:
问题是C将包含两个part-m- *文件。一个有400万条记录,另一条有400万条记录。
现在,问题是需要花费大量时间来编写这些文件。如果我不做联合并将A和B单独存储在两个文件中,它会更快。我希望映射器输出速度很快。
为此,我们需要更多的映射器,我希望映射器输出,即使特定关系被写入多个文件。
我可以确保这个吗?