hadoop多行混合记录

时间:2012-12-29 00:57:19

标签: hadoop logparser

我想解析由fidonet mailer binkd生成的日志文件,它们是多行的,更糟糕​​的是 - 混合:多个实例可以写入一个日志文件,例如:

      27 Dec 16:52:40 [2484] BEGIN, binkd/1.0a-545/Linux -iq /tmp/binkd.conf
    + 27 Dec 16:52:40 [2484] session with 123.45.78.9 (123.45.78.9)
    - 27 Dec 16:52:41 [2484] SYS BBSName
    - 27 Dec 16:52:41 [2484] ZYZ First LastName
    - 27 Dec 16:52:41 [2484] LOC City, Country
    - 27 Dec 16:52:41 [2484] NDL 115200,TCP,BINKP
    - 27 Dec 16:52:41 [2484] TIME Thu, 27 Dec 2012 21:53:22 +0600
    - 27 Dec 16:52:41 [2484] VER binkd/0.9.6a-173/Win32 binkp/1.1
    + 27 Dec 16:52:43 [2484] addr: 2:1234/56.78@fidonet
    - 27 Dec 16:52:43 [2484] OPT NDA CRYPT
    + 27 Dec 16:52:43 [2484] Remote supports asymmetric ND mode
    + 27 Dec 16:52:43 [2484] Remote requests CRYPT mode
    - 27 Dec 16:52:43 [2484] TRF 0 0
    *+ 27 Dec 16:52:43 [1520] done (from 2:456/78@fidonet, OK, S/R: 0/0 (0/0 bytes))*
    + 27 Dec 16:52:43 [2484] Remote has 0b of mail and 0b of files for us
    + 27 Dec 16:52:43 [2484] pwd protected session (MD5)
    - 27 Dec 16:52:43 [2484] session in CRYPT mode
    + 27 Dec 16:52:43 [2484] done (from 2:1234/56.78@fidonet, OK, S/R: 0/0 (0/0 bytes))

因此,日志文件不仅是多行,每个会话具有不可预测的行数,而且可以在其间混合多个记录,例如会话1520已在会话2484的中间完成。 在hadoop中解析这样一个文件的正确方向是什么?或者我是否只是逐行解析,然后以某种方式将它们合并到一个记录中,然后使用另一组作业将这些记录写入SQL数据库?

感谢。

2 个答案:

答案 0 :(得分:1)

Hadoop的正确方向是开发自己的输入格式,谁是记录阅读器 逐行读取输入并生成逻辑记录 可以说 - 你实际上也可以在mapper中做到 - 它可能有点简单。缺点是它不是hadoop这样的代码的标准包装,因此它不太可重复使用。

在我看来,你提到的其他方向对于hadoop而言并非“自然”。具体来说 - 为什么要使用所有复杂(和昂贵)的洗牌机器将几条已经在手中的线连接在一起。

答案 1 :(得分:0)

首先,解析文件不是你想要做的;您正试图从数据中提取一些信息。

在您的情况下,您可以考虑多步MR作业,其中第一个MR作业将基本上(部分地)按session_id对输入进行排序(进行一些过滤?一些聚合?多个减少器?)然后减速器或下一个MR作业将实际执行计算。

如果没有解释您要从日志文件中提取的内容,则很难给出更明确的答案。

此外,如果您的数据很小,也许您可​​以在没有MR机器的情况下处理它?<​​/ p>