Pig是否有办法以类似于hadoop -archives的方式发送存档文件

时间:2012-03-15 17:21:20

标签: hadoop apache-pig

通过hadoop运行java mapreduce作业时,您可以指定-archives选项以选择要随作业一起上载的归档文件,并自动取消归档,以便代码可以访问这些文件。

猪有没有相同的东西? 我正在编写一个使用库的UDF(我无法访问其源代码)。这个库需要一个目录路径,从中加载一些文件。

如何运送猪作业这样的目录?

2 个答案:

答案 0 :(得分:1)

答案很简单,已在https://stackoverflow.com/a/4966099

中提及

然后正确的方法是

  1. 在dfs
  2. 中为每个作业放置您想要在本地使用的文件
  3. 运行pig让它知道它应该使用dfs中的那个文件,如下所示

    pig ... -Dmapred.cache.archives = hdfs:// host:port / path / GeoIP.dat.zip#GeoIP.dat -Dmapred.create.symlink = yes ...

答案 1 :(得分:0)

看看ship