MrJob花了很多时间将本地文件复制到hdfs中

时间:2015-09-27 11:21:32

标签: hadoop hdfs mrjob

我遇到的问题是: 已经将我的input.txt(50MBytes)文件放入HDFS,我正在运行

python ./test.py hdfs:///user/myself/input.txt -r hadoop --hadoop-bin /usr/bin/hadoop 

似乎MrJob花了很多时间将文件复制到hdfs(再次?)

Copying local files into hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/

这是合乎逻辑的吗?它不应该直接从HDFS使用input.txt吗?

(使用Hadoop版本2.6.0)

1 个答案:

答案 0 :(得分:1)

查看hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/的内容,您会看到input.txt不是要复制到HDFS的文件。

正在复制的是mrjob的整个python目录,因此可以在每个节点上解压缩它。 (mrjob假设mrjob未安装在群集中的每个节点上。)