在Hadoop节点之间分配工作

时间:2017-04-27 08:24:04

标签: java csv hadoop mapreduce

我有一个Hadoop集群,包括1个NameNode和3个dataNodes。

为了在一个CSV文件上处理搜索操作,我将我的CSV文件剪切成3个文件。 因此,我将输入路径设置为包含我的3个CSV文件的文件夹,以便使用我的3个节点处理这些文件的地图操作。

似乎工作正常,但与1个大CSV文件上的流程图​​操作相比,没有时间节省......

我有1个NameNode(4个vCpu Xeon @ 2.8Ghz,6GO RAM)和3个Datanodes(2vCpu Xeon @ 2.8Ghz,4GO RAM),并且映射操作大约需要7秒来解析我的CSV文件,其中包含~500,000行( 300MB)。

这是我的Map类:Gist

谢谢!

0 个答案:

没有答案