我创建了3个文件 - 一个文本文件“alice.txt”,一个zip文件“bob.zip”(包含b1.txt和bdir / b2.txt),以及一个tar文件“claire.tar”(包含c1.txt和cdir / c2.txt)。然后我通过
调用hadoop作业hadoop jar myJar myClass -files ./etc/alice.txt -archives ./etc/bob.zip,./etc/claire.tar <input_path> <output_path>
文件确实存在并且格式正确:
% ls -l etc/alice.txt etc/bob.zip etc/claire.tar
-rw-rw-r-- 1 hadoop hadoop 6 Aug 20 18:44 etc/alice.txt
-rw-rw-r-- 1 hadoop hadoop 282 Aug 20 18:44 etc/bob.zip
-rw-rw-r-- 1 hadoop hadoop 10240 Aug 20 18:44 etc/claire.tar
% tar tf etc/claire.tar
c1.txt
cdir/c2.txt
然后我用mapper测试是否存在相关文件,就像这样,'lineNumber'是传递给映射器的密钥:
String key = Long.toString(lineNumber.get());
String [] files = {
"alice.txt",
"bob.zip",
"claire.tar",
"bdir",
"cdir",
"b1.txt",
"b2.txt",
"bdir/b2.txt",
"c1.txt",
"c2.txt",
"cdir/c2.txt"
};
String fName = files[ (int) (lineNumber.get() % files.length)];
String val = codeFile(fName);
output.collect(new Text(key), new Text(val));
支持例程'codeFile'是:
private String codeFile(String fName) {
Vector<String> clauses = new Vector<String>();
clauses.add(fName);
File f = new File(fName);
if (!f.exists()) {
clauses.add("nonexistent");
} else {
if (f.canRead()) clauses.add("readable");
if (f.canWrite()) clauses.add("writable");
if (f.canExecute()) clauses.add("executable");
if (f.isDirectory()) clauses.add("dir");
if (f.isFile()) clauses.add("file");
}
return Joiner.on(',').join(clauses);
}
使用Guava'Joiner'课程。 mapper的输出值如下所示:
alice.txt,readable,writable,executable,file
bob.zip,readable,writable,executable,dir
claire.tar,readable,writable,executable,dir
bdir,nonexistent
b1.txt,nonexistent
b2.txt,nonexistent
bdir/b2.txt,nonexistent
cdir,nonexistent
c1.txt,nonexistent
c2.txt,nonexistent
cdir/c2.txt,nonexistent
所以你看到了问题 - 存档文件在那里,但它们没有被解压缩。我错过了什么?我也尝试使用DistributedCache.addCacheArchive()而不是使用-archives,但问题仍然存在。
答案 0 :(得分:0)
分布式缓存不会将存档文件解压缩到任务的本地工作目录 - 每个任务跟踪器上都有一个位置作为整体作业,并在那里解压缩。
您需要检查DistributedCache以找到此位置并在那里查找文件。 DistributedCache的Javadocs显示了一个示例映射器,用于提取此信息。
在定义-files和-archives通用选项时可以使用符号链接,并且将在map / reduce任务的本地工作目录中创建符号链接,使这更容易:
hadoop jar myJar myClass -files ./etc/alice.txt#file1.txt \
-archives ./etc/bob.zip#bob,./etc/claire.tar#claire
然后,当您尝试打开存档中的文件时,您可以在映射器中使用片段名称:
new File("bob").isDirectory() == true