如何根据时间戳/日期拆分日志文件

时间:2014-12-11 11:55:50

标签: hadoop mapreduce hadoop-partitioning

我必须分析一个巨大的日志文件以用于管理报告。

日志文件的格式如下: -

[2014-08-28 08:49:40 GMT] [等级:DEBUG]来自UGUBUKBBBHJGJ.mt.site(123.131.21.20)的连接,用户:12345678 for compositeId:com.my.solution.name.abc < / p>

[2014-08-28 08:49:41 GMT] [级别:DEBUG]来自TYIYIYPOYUUGG.mt.site(123.131.21.20)的连接,用户:12345678 for compositeId:com.my.solution.name.def < / p>

[2014-08-29 05:55:21 GMT] [等级:DEBUG]来自OJPPMMJOOHJIH.mt.site(123.131.22.33)的连接,用户:12345678 for compositeId:com.my.solution.name.ghi < / p>

[2014-08-29 05:55:22 GMT] [等级:DEBUG]来自HGJJKHKHKHKJH.mt.site(123.131.22.33)的连接,用户:12345678 for compositeId:com.my.solution.name.jkl < / p>

我已经用一些虚拟的值替换了日志中的实际值。

如何分割我的日志文件,使得我的一个inputsplit只包含单个日期的日志,因此一个映射器处理一天的所有日志。

0 个答案:

没有答案