我遇到的问题是:
已经将我的input.txt
(50MBytes)文件放入HDFS,我正在运行
python ./test.py hdfs:///user/myself/input.txt -r hadoop --hadoop-bin /usr/bin/hadoop
似乎MrJob花了很多时间将文件复制到hdfs(再次?)
Copying local files into hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/
这是合乎逻辑的吗?它不应该直接从HDFS使用input.txt
吗?
(使用Hadoop版本2.6.0)
答案 0 :(得分:1)
查看hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/
的内容,您会看到input.txt
不是要复制到HDFS的文件。
正在复制的是mrjob的整个python目录,因此可以在每个节点上解压缩它。 (mrjob假设mrjob未安装在群集中的每个节点上。)