HDFS的分裂逻辑?

时间:2014-02-26 06:39:39

标签: hadoop mapreduce hdfs distributed-filesystem

FileInputFormat类的isSplittable()方法有什么意义? http://hadoop.apache.org/docs/r2.2.0/api/index.html

2 个答案:

答案 0 :(得分:2)

当isSplitable返回false时,只有一个映射器处理整个文件。

您可以提供自己的FileInputFormat实现,并根据需要为isSplitable返回true / false。

答案 1 :(得分:0)

如果文件是像tar.gz或zip文件那样进行流压缩,并且当您的记录具有可变数量的行时;可能存在同一记录的一部分可能在一个块中着陆而另一部分记录在另一个块中的可能性。因此,为读取记录而编写的程序可能会崩溃。

因此,在这样的场景中,可以将isSplittable()设置为false。