Newbie with Pig / hadoop ..
在当地养猪。
java -Xmx512m -Xmx1024m -cp $PIGDIR/pig.jar org.apache.pig.Main -Dpig.temp.dir=/tmp/$USER/$RANDOM -stop_on_failure -x local script-buzz.pig
使用我的script.pig:
(...)
buzz = FOREACH files GENERATE chiron.buzz.Honey(file, id) as buzz_file, id;
尝试使用我的UDF加注来编写文件夹/文件:
[JobControl] ERROR org.apache.hadoop.security.UserGroupInformation - PriviledgedActionException as:felipehorta cause:org.apache.pig.backend.executionengine.ExecException: ERROR 2118: Input path does not exist: file:/Users/felipehorta/dev/ufrj/pig/pig-buzz/output
以下代码必须(!)写入下一个LOAD消耗的文件。
jar适用于:$ java -jar Pgm.jar *
(...)
public String exec(Tuple input) throws IOException {
try{
System.out.println(input.get(0).toString());
BumbleBee b = new BumbleBee(input.get(0).toString());
return b.writeRelation(input.get(1).toString());
} catch(Exception e){
System.err.println("Failed to process input; error - " + e.getMessage());
return null;
}
}
public String writeRelation(String folder) throws IOException {
try {
// writing file!
File output = new File("output/ERelation_" + folder + ".txt");
output.getParentFile().mkdirs();
FileWriter fw = new FileWriter(output);
String line = System.getProperty("line.separator");
fw.append("YEAR;WORD;COUNT" + line);
for (Integer year : buzzCandidates.keySet()) {
Map<String, Long> wordCounts = buzzCandidates.get(year);
for (String word : wordCounts.keySet()) {
long value = wordCounts.get(word);
if (value >= 3) {
fw.append(year + ";" + word.replace(" ", "_") + ";" + String.valueOf(value) + line);
}
}
}
fw.flush();
fw.close();
return output.getAbsolutePath();
} catch (Exception e) {
System.out.println(">>> ERROR!!\t" + e.getMessage());
return "ERROR";
}
}
我认为这是关于使用UDF编写文件的权限,但我不知道设置权限的位置。有什么帮助吗?
提前谢谢,伙计们!
答案 0 :(得分:0)
错误读取输入路径不存在:file:/ Users / felipehorta / dev / ufrj / pig / pig-buzz / output 请检查pig脚本以了解负载的使用方式。
relation = load '/Users/felipehorta/dev/ufrj/pig/pig-buzz/output' using ...
将是正确的做法。
不确定这是否是确切的原因。如果您可以发布脚本,那就太棒了。