日志分析和数据汇总

时间:2017-05-04 14:36:36

标签: logging lucene data-analysis

我对数据分析完全陌生,我需要一些建议来开始一个新项目。 我有来自不同外围设备的许多日志文件,它们是自动付款机器的一部分。日志文件每天生成,每个日志文件长度在10k到100k之间。此外,日志文件具有或多或少相同的结构(Timestamp,Category,ProcID,ThreadID,Method,Message)。
我需要做的是:

  1. 对每个文件应用一些查询以提取有关每个外围设备的信息
  2. 汇总来自不同外围设备的日志的信息以重建交易流程
  3. 执行此任务的最佳技术/框架是哪些?
    我刚开始使用Apache Lucene进行日志解析,但我会欣赏任何建议。
    目前我对编程语言没有任何限制,但最好是Java,C#或Python。 / p>

    谢谢!

1 个答案:

答案 0 :(得分:1)

这是一种数据库方法。您需要熟悉SQL。

  1. 使用python脚本将所需信息提取为可导入数据库的格式。
  2. 将其导出到数据库(例如PostgreSQL或Apache SPARK),每个外围设备都是一个表。当然,如果您需要匹配的外设数量很多,则需要通过将一对一匹配的外设条目放在一个表中来优化表格。
  3. 然后执行JOIN操作以匹配相应的外围设备。
  4. 根据匹配的外围信息撰写/重建交易流程。
  5. 这种方法的优点是可以轻松扩展。此外,大多数数据科学工具支持数据库。因此,您可以使用各种工具来检查/可视化您的数据。它还为您提供了可能需要的更复杂的操作。