我有一个Hadoop集群,包括1个NameNode和3个dataNodes。
为了在一个CSV文件上处理搜索操作,我将我的CSV文件剪切成3个文件。 因此,我将输入路径设置为包含我的3个CSV文件的文件夹,以便使用我的3个节点处理这些文件的地图操作。
似乎工作正常,但与1个大CSV文件上的流程图操作相比,没有时间节省......
我有1个NameNode(4个vCpu Xeon @ 2.8Ghz,6GO RAM)和3个Datanodes(2vCpu Xeon @ 2.8Ghz,4GO RAM),并且映射操作大约需要7秒来解析我的CSV文件,其中包含~500,000行( 300MB)。
这是我的Map类:Gist
谢谢!