使用Elastic MapReduce(PIG)处理CloudFront日志

时间:2010-11-01 15:49:13

标签: amazon-web-services mapreduce amazon-cloudfront apache-pig

我想处理Amazon CloudFront使用Amazon Elastic MapReduce创建的访问日志。

我只需要一些关于从cloudfront加载不同文件的次数的简单统计数据,所以我想我应该为此编写一个简单的PIG脚本。

我遇到的第一个问题是cloudfront写了日志gzipped,据我所知,我不能在猪中读取.gz?

有关我应该如何做的任何建议?我对弹性mapreduce非常陌生,因此欢迎任何有关如何构建此类工作的提示。

2 个答案:

答案 0 :(得分:2)

抱歉,这默认有效。在处理日志之前无需解压缩日志。我的坏。

答案 1 :(得分:0)

您可能对Qloudstat感兴趣。我们将提供CloudFront访问日志的统计信息作为服务。