标签: apache-pig hdfs amazon-emr emr webhdfs
我想使用Amazon的Elastic MapReduce并在大约2TB的数据上运行一个pig脚本。问题是我一定需要使用PigStorage,因为我需要在我的程序中使用tagsource选项。
我不确定,但我认为PigStorage仅从HDFS加载数据。我需要它来读取下面的URL中的数据,或者我需要直接从URL将数据加载到HDFS: http://dumps.wikimedia.org/other/pagecounts-raw/2008/2008-01/
我有办法做到吗?