我想处理Amazon CloudFront使用Amazon Elastic MapReduce创建的访问日志。
我只需要一些关于从cloudfront加载不同文件的次数的简单统计数据,所以我想我应该为此编写一个简单的PIG脚本。
我遇到的第一个问题是cloudfront写了日志gzipped,据我所知,我不能在猪中读取.gz?
有关我应该如何做的任何建议?我对弹性mapreduce非常陌生,因此欢迎任何有关如何构建此类工作的提示。
答案 0 :(得分:2)
抱歉,这默认有效。在处理日志之前无需解压缩日志。我的坏。
答案 1 :(得分:0)
您可能对Qloudstat感兴趣。我们将提供CloudFront访问日志的统计信息作为服务。