Hadoop流无法访问jar存档

时间:2014-08-27 13:41:23

标签: python hadoop hadoop-streaming

我正在运行这个hadoop流命令:

/home/hduser/hadoop/bin/hadoop jar
/home/hduser/hadoop/share/hadoop/tools/lib
/hadoop-*streaming*.jar 
-file audio.py 
-cacheArchive        hdfs://localhost:54310/user/hduser
  /input/audio/cacheaudiodir.jar#cacheaudiodir 
-input /user/hduser/input/audio -output /user/hduser/output
-mapper audio.py -cmdenv AUDIO_DIR=cacheaudiodir

当我尝试参考' cacheaudiodir'在我的Python映射器中,我收到错误:No such file or directory,例如:

dir_a='cacheaudiodir'
filelist_a = commands.getoutput('/home/hduser/hadoop/bin/hadoop fs -ls ' + dir_a)

如何指向此符号链接文件夹中的文件?

1 个答案:

答案 0 :(得分:0)

似乎缓存存档在本地解压缩,而不是在hdfs中,所以'hadoop fs -ls'找不到任何东西,而'ls'却没有。