HDFS并行读取大文件

时间:2015-01-23 07:26:05

标签: hadoop hdfs

我想从我的带有5个节点的hadoop集群中读取一个大小为500GB的大文件。我可以并行读取块,还是必须逐个读取块?

1 个答案:

答案 0 :(得分:0)

如果您正在使用MapReduce / Hive / Pig,那么将根据块数自动并行读取块。

假设,如果您在500GB文件上执行wordcount并且块大小为128MB,则将有4个块,因此MapReduce将启动4个Mapper(最好是尽可能接近数据 - 数据位置) wordcount并行。