标签: hadoop hdfs
我想从我的带有5个节点的hadoop集群中读取一个大小为500GB的大文件。我可以并行读取块,还是必须逐个读取块?
答案 0 :(得分:0)
如果您正在使用MapReduce / Hive / Pig,那么将根据块数自动并行读取块。
假设,如果您在500GB文件上执行wordcount并且块大小为128MB,则将有4个块,因此MapReduce将启动4个Mapper(最好是尽可能接近数据 - 数据位置) wordcount并行。