Question

我遇到的问题是：已经将我的input.txt（50MBytes）文件放入HDFS，我正在运行

python ./test.py hdfs:///user/myself/input.txt -r hadoop --hadoop-bin /usr/bin/hadoop

似乎MrJob花了很多时间将文件复制到hdfs（再次？）

Copying local files into hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/

这是合乎逻辑的吗？它不应该直接从HDFS使用input.txt吗？

（使用Hadoop版本2.6.0）

Answer 1

查看hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/的内容，您会看到input.txt不是要复制到HDFS的文件。

正在复制的是mrjob的整个python目录，因此可以在每个节点上解压缩它。（mrjob假设mrjob未安装在群集中的每个节点上。）