应用错误收集

如何将数据从URL添加到.gz文件到Pig？

时间：2013-08-22 11:27:40

标签： apache-pig hdfs amazon-emr emr webhdfs

我想使用Amazon的Elastic MapReduce并在大约2TB的数据上运行一个pig脚本。问题是我一定需要使用PigStorage，因为我需要在我的程序中使用tagsource选项。

我不确定，但我认为PigStorage仅从HDFS加载数据。我需要它来读取下面的URL中的数据，或者我需要直接从URL将数据加载到HDFS： http://dumps.wikimedia.org/other/pagecounts-raw/2008/2008-01/

我有办法做到吗？

0 个答案:

没有答案