我正在解析Apache,Nginx,Darwin(视频流服务器)生成的访问日志,并按日期/ referrer / useragent聚合每个交付文件的统计信息。
每小时生成大量日志,并且这个数字可能会在不久的将来大幅增加 - 因此通过Amazon Elastic MapReduce以分布式方式处理这类数据听起来很合理。
现在我已准备好使用映射器和缩减器来处理我的数据并使用以下流程测试整个过程:
我已经根据互联网上有关Amazon ERM的数千个教程手动完成了这项工作。
接下来我该怎么办?什么是自动化此过程的最佳方法?
我认为这个主题对于尝试使用Amazon Elastic MapReduce处理访问日志但无法找到好的材料和/或最佳实践的人来说非常有用。
UPD:这里只是澄清最后一个问题:
Amazon Elastic MapReduce支持的日志处理的最佳做法是什么?
相关帖子:
答案 0 :(得分:3)
这是一个非常开放的问题,但这里有一些你可以考虑的想法:
希望能给你一些线索。