问题是,日志文件对于挖掘来说太大了。 (假设每日请求接近100米)
我想知道可能有一种简化请求行的方法。我不需要所有桶字段值。
例如line:
314423094967345b38a76d76d78c678b4 bucket_name [14/Nov/2010:13:53:59 +0000] 11.22.33.44 Anonymous 3E43423453A12F47 REST.GET.OBJECT s3browser/2.4.5/s3browser-portable-2-4-5.exe "GET /s3browser/2.4.5/s3browser-portable-2-4-5.exe HTTP/1.1" 200 - 289897 289897 50 44 "http://s3browser.com/download.php" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/534.7 (KHTML, like Gecko) Chrome/7.0.517.44 Safari/534.7" -
我找不到任何有关减少桶格式文件数的信息。
我只需要Time,Remote IP,Key,Referrer,Bytes Sent,Object Size和User-Agent。
有人对此有任何想法吗?
欢迎任何其他关于在短时间内挖掘这些大文件的想法。
感谢。