在pig LOAD语句中使用位于远程http服务器上的文件?

时间:2014-08-11 17:47:28

标签: hadoop apache-pig

我试图读取猪作业中的txt文件,并将其与我们hdfs上的数据一起加入。

所以基本上我试图做的就是:

current_ids = LOAD 'http://host/dir/file.txt' USING PigStorage(',') AS (id:int);
bindings = LOAD '$hdfs_path' USING AvroStorage();
joined_ids = JOIN current_ids BY id, bindings by user_id;

第一:这可能吗?我认为是。

第二:我该怎么做,或者在哪里可以获得更多答案。我出乎意料地坚持这个问题:)。

如果可能的话,我们宁愿不必将txt文件上传到我们的hdfs。

谢谢!

1 个答案:

答案 0 :(得分:0)

向一些hadoop专家提问,他们回答说:

"你不能这样做。手动下载它和CopyFromLocal放入HDFS ..否则我们可能会使用我们的Hadoop集群将DDoS作为一个糟糕的小型网络服务器"

问题解决了!