我们正在转向s3开始为我们的网络应用程序提供一些静态生成的内容。我们一直在研究构建关于网站使用情况的度量系统的机制,我们计划通过传递要记录在内容GET请求上的其他信息来解析S3的访问日志。我们遇到了以下entry in the developers guide:
尽力服务器日志传送
服务器访问日志记录功能是 旨在尽最大努力。您可以 期待大多数请求反对 正确配置的存储桶 日志记录将导致传递日志 记录,大多数日志记录将 在几个小时内送达 他们被录制的时间。
但是,服务器日志记录功能是 以尽力而为的方式提供。该 服务器的完整性和及时性 记录不保证。日志 特定请求的记录可能 请求后很久才能送达 实际上已经处理过,或者可能 根本没有交付。目的 服务器日志是给桶 所有者了解交通的性质 反对他或她的桶。它不是 意思是完整的会计 所有请求。
我们想知道其他人在访问日志的交付方面遇到了什么?我们的替代方案是构建一个HTTP服务器并尝试使用不同的调用来自己计量度量,但我们认为解析日志文件可能会减少工作量。我们想知道人们是否已经看到没有进行交付的情况,以试图衡量我们希望的准确程度,因为我们收集的一些指标用于我们的一些业务流程。
答案 0 :(得分:5)
我很惊讶S3上的日志文件在一个月内有多大。我的应用程序没有必要解析亚马逊上的日志,但我喜欢你的方法。从我所看到的,您可以期望日志文件准确和完整。根据他们的CYA警告,日志不应该用于任何关键的事情。
答案 1 :(得分:2)
我们一直使用S3来记录相对大量的数据(大约100M行)。我们需要依赖于S3访问日志来实现特定目的,并且我们正在观察一些对访问日志的潜在用户可能很重要的问题:
我的建议是,如果数据准确性和完整性至关重要,请避免依赖S3访问日志。
答案 2 :(得分:1)