应用错误收集

Hadoop较小的输入文件

时间：2013-03-10 23:20:14

标签： hadoop mapreduce

我以不同的方式使用hadoop。就我而言，输入大小非常小。但是，计算时间更长。我有一些复杂的算法，我将在每一行输入上运行。因此，即使输入大小小于5mb，总计算时间也会超过10小时。所以我在这里使用hadoop。我使用NLineInputFormat按行数而不是块大小拆分文件。在我的初始测试中，我有大约1500行（拆分200行），我发现在四节点集群中，与在一台机器上串行运行相比，只有1.5倍的改进。我正在使用VM。这可能是问题还是对于较小尺寸的输入而言，hadoop不会带来多大好处？任何见解都会非常有用。

2 个答案:

答案 0 :(得分：0)

对我而言，您的工作量类似于SETI @ Home工作负载 - 小型有效负载，但需要数小时的运算时间。

Hadoop（或更具体地说是HDFS）不是为许多小文件设计的。但我怀疑这是MapReduce的一个问题 - 您正在使用的处理框架。

如果您想将工作量保持在一起： 1）如果文件小于块大小，则将它们分成单个文件（一个工作负载，一个文件），然后它将转到一个映射器。典型的块大小为64MB或128MB

2）为FileInputFormat创建一个包装器，并将'isSplitable（）'方法覆盖为false。这将确保整个文件内容被送到一个映射器，而不是hadoop尝试逐行拆分

参考：http://hadoopilluminated.com/hadoop_book/HDFS_Intro.html

答案 1 :(得分：-1)

Hadoop并不擅长处理大量小文件，因此，通常需要将大量较小的输入文件合并到较少数量的较大文件中，以减少映射器的数量。

由于InputFormat抽象了Hadoop MapReduce进程的输入。 FileInputFormat是一个处理HDFS文件的默认实现。使用FileInputFormat时，每个文件会被分成一个或多个InputSplits，通常由block size限制。这意味着输入分割的数量受输入文件数量的限制。当MapReduce进程处理大量小文件时，这不是一个理想的环境，因为协调分布式进程的开销远远大于存在相对大量小文件时的开销。

驱动吐痰大小的基本参数是mapred.max.split.size。

使用CombineFileInputFormat和此参数，我们可以控制映射器的数量。

查看我对另一个答案的实施here。