Map Reduce是否可以处理数千个文件?

时间:2020-10-19 16:20:15

标签: python hadoop mapreduce

我的数据集可以大于100 TB。在这些数据集中可以有1000个文件。每个文件都有其自己的格式。假设file1具有D1,X1,X2列,file2具有D2,x3,x4,x5列,依此类推。这些文件的大小范围从几Kb到Gb。我需要一种快速高效的算法来处理所有这些文件。我打算(需要)在以下阶段进行处理:

a。分割原始文件并生成以下对的新文件:T1: (D1,X1),T2:(D2,X2),T3:(D2,X3),T4:(D2,X4),T5:(D2,X5)其中 T1,T2,T3,T4,T5是新的中间文件,其中T1,T2是 由file1产生,其余由file2产生。

b。对于所有这些中间文件,请运行并行Jobs(类似 映射器),并进行逻辑回归拟合并生成系数 格式为:T1:(a1,b1,c1),T2:(a2,b2,c2)等。

c。在最后阶段,根据逻辑回归系数, 减速器将检查是否满足某些条件,并输出 那些符合条件的人。例如:如果满足我的条件, 它应该输出:True:(T1,T2,T5),False:(T3,T4)。*

我不确定这是否是使用mapper和reducer和hdfs的正确方法。这是我第一次使用hdfs进行数据处理。因此,对此的任何帮助或专家建议都将不胜感激。

0 个答案:

没有答案