python - Map Reduce是否可以处理数千个文件？

我的数据集可以大于100 TB。在这些数据集中可以有1000个文件。每个文件都有其自己的格式。假设file1具有D1，X1，X2列，file2具有D2，x3，x4，x5列，依此类推。这些文件的大小范围从几Kb到Gb。我需要一种快速高效的算法来处理所有这些文件。我打算（需要）在以下阶段进行处理：

a。分割原始文件并生成以下对的新文件：T1：（D1，X1），T2：（D2，X2），T3：（D2，X3），T4：（D2，X4），T5：（D2，X5）其中 T1，T2，T3，T4，T5是新的中间文件，其中T1，T2是由file1产生，其余由file2产生。

b。对于所有这些中间文件，请运行并行Jobs（类似映射器），并进行逻辑回归拟合并生成系数格式为：T1：（a1，b1，c1），T2：（a2，b2，c2）等。

c。在最后阶段，根据逻辑回归系数，减速器将检查是否满足某些条件，并输出那些符合条件的人。例如：如果满足我的条件，它应该输出：True：（T1，T2，T5），False：（T3，T4）。*

我不确定这是否是使用mapper和reducer和hdfs的正确方法。这是我第一次使用hdfs进行数据处理。因此，对此的任何帮助或专家建议都将不胜感激。

Map Reduce是否可以处理数千个文件？

0 个答案: