通过hadoop运行java mapreduce作业时,您可以指定-archives选项以选择要随作业一起上载的归档文件,并自动取消归档,以便代码可以访问这些文件。
猪有没有相同的东西? 我正在编写一个使用库的UDF(我无法访问其源代码)。这个库需要一个目录路径,从中加载一些文件。
如何运送猪作业这样的目录?
答案 0 :(得分:1)
答案很简单,已在https://stackoverflow.com/a/4966099
中提及然后正确的方法是
运行pig让它知道它应该使用dfs中的那个文件,如下所示
pig ... -Dmapred.cache.archives = hdfs:// host:port / path / GeoIP.dat.zip#GeoIP.dat -Dmapred.create.symlink = yes ...
答案 1 :(得分:0)
看看ship。