标签: mapreduce emr amazon-emr
我想要破解10 PB数据。输入数据采用某种专有格式(存储在S3中),第一个预处理步骤是将此专有数据转换为CSV并将其移回S3。由于一些限制,我无法将预处理步骤与Map任务相结合。这样做的正确方法是什么?
我计划使用AWS EMR。一种方法是在没有reduce任务的情况下运行单独的EMR作业,并在Map阶段将数据上传到S3。有没有更好的方法可以做到这一点,因为运行map-reduce作业而不减少预处理数据的任务就像是一个hacky解决方案。
答案 0 :(得分:1)
看起来你至少有两个选择:
InputFormat
您需要考虑的一些事情是: