如何将数据从URL添加到.gz文件到Pig?

时间:2013-08-22 11:27:40

标签: apache-pig hdfs amazon-emr emr webhdfs

我想使用Amazon的Elastic MapReduce并在大约2TB的数据上运行一个pig脚本。问题是我一定需要使用PigStorage,因为我需要在我的程序中使用tagsource选项。

我不确定,但我认为PigStorage仅从HDFS加载数据。我需要它来读取下面的URL中的数据,或者我需要直接从URL将数据加载到HDFS: http://dumps.wikimedia.org/other/pagecounts-raw/2008/2008-01/

我有办法做到吗?

0 个答案:

没有答案