应用错误收集

HDFS并行读取大文件

时间：2015-01-23 07:26:05

标签： hadoop hdfs

我想从我的带有5个节点的hadoop集群中读取一个大小为500GB的大文件。我可以并行读取块，还是必须逐个读取块？

1 个答案:

答案 0 :(得分：0)

如果您正在使用MapReduce / Hive / Pig，那么将根据块数自动并行读取块。

假设，如果您在500GB文件上执行wordcount并且块大小为128MB，则将有4个块，因此MapReduce将启动4个Mapper（最好是尽可能接近数据 - 数据位置） wordcount并行。