我必须分析一个巨大的日志文件以用于管理报告。
日志文件的格式如下: -
[2014-08-28 08:49:40 GMT] [等级:DEBUG]来自UGUBUKBBBHJGJ.mt.site(123.131.21.20)的连接,用户:12345678 for compositeId:com.my.solution.name.abc < / p>
[2014-08-28 08:49:41 GMT] [级别:DEBUG]来自TYIYIYPOYUUGG.mt.site(123.131.21.20)的连接,用户:12345678 for compositeId:com.my.solution.name.def < / p>
[2014-08-29 05:55:21 GMT] [等级:DEBUG]来自OJPPMMJOOHJIH.mt.site(123.131.22.33)的连接,用户:12345678 for compositeId:com.my.solution.name.ghi < / p>
[2014-08-29 05:55:22 GMT] [等级:DEBUG]来自HGJJKHKHKHKJH.mt.site(123.131.22.33)的连接,用户:12345678 for compositeId:com.my.solution.name.jkl < / p>
我已经用一些虚拟的值替换了日志中的实际值。
如何分割我的日志文件,使得我的一个inputsplit只包含单个日期的日志,因此一个映射器处理一天的所有日志。