使用hadoop进行日志分析,以查找错误情况和频繁的重复交易

时间:2015-09-22 15:49:24

标签: hadoop logging elasticsearch log-analysis transactionloganalysis

我有一个业务场景,我想要我的应用服务器日志,并且我想完成以下任务 -

  1. 找出日志中捕获的错误情况,以查找错误代码[在日志中],导致异常,时间。
  2. 某些用户可能发生安全漏洞的重复交易。
  3. 当上述两个发生时,
  4. 提醒管理员。
  5. 我可以使用一些具有批处理功能的多线程基本java应用程序,但我希望使用大数据技术,并希望对应用程序行为也有一些图形表示。

    有人可以建议我使用最好的技术来实现这个非常快速和可扩展的功能吗?如果可能的架构如何做到这一点?

    如果有人帮忙解决这个问题,那将会很棒。

1 个答案:

答案 0 :(得分:0)

您是否考虑过实施大数据解决方案?我有类似的要求。我的数据源是weblogic域应用程序日志。这是我的方法。 1.使用flume或其他流工具将weblogic应用程序错误日志流式传输到hadoop。 2.将数据加载到Spark Dataframe中。 3.编写Spark SQL查询以分析错误数据

我们有一个数据库错误日志表。我将使用它作为另一个数据源来关联Web逻辑数据库异常。 weblogic错误数据是CSV格式,由两个管道符号(“||”)分隔。但是,输入数据的问题是, 最后一列数据分散到多行,如下所示。 Spark将下一行的最后一列的延续视为“新行”,因此负载失败。感谢是否有人想过如何处理这个问题。

|| 20160704 || 01:58:32,294 || 396c0a8e2470e7a21467611910768 || com.seic.dataservices.impl.InstrumentSearchDoImpl || [ACTIVE] ExecuteThread:'9'表示队列:0).... INSTRUMENT_ID(1004915)表TABEL_NAME中不存在PRICE_DATE(01-JUL-16)。未找到价格数据.. ORA-06512:在“Qxx_xxx.ERROR_PKG”,第502行ORA-06512:在“Qxx_xxx.IM_PRICING”,第6221行ORA-06512:在第1行)