应用错误收集

Pig是否有办法以类似于hadoop -archives的方式发送存档文件

时间：2012-03-15 17:21:20

标签： hadoop apache-pig

通过hadoop运行java mapreduce作业时，您可以指定-archives选项以选择要随作业一起上载的归档文件，并自动取消归档，以便代码可以访问这些文件。

猪有没有相同的东西？我正在编写一个使用库的UDF（我无法访问其源代码）。这个库需要一个目录路径，从中加载一些文件。

如何运送猪作业这样的目录？

2 个答案:

答案 0 :(得分：1)

答案很简单，已在https://stackoverflow.com/a/4966099

中提及

然后正确的方法是

在dfs
运行pig让它知道它应该使用dfs中的那个文件，如下所示

pig ... -Dmapred.cache.archives = hdfs：// host：port / path / GeoIP.dat.zip＃GeoIP.dat -Dmapred.create.symlink = yes ...

答案 1 :(得分：0)

看看ship。