应用错误收集

我们在金融领域实施的业务流量很少。监管部门的要求（不幸的是，不是非常具体）是为了审计目的而建立数据线。

该流程包含两部分：同步和异步。同步部分是一种付款尝试，包含有关销售点，客户和货物的大量信息。异步部分是一个批处理过程，每小时为信用评估数据模型提供一个新计算的变量部分。变量可能包括一些聚合，如余额和历史交易的链接。

为了计算异步部分，我们从多个关系数据库中提取数据，并以原始格式（来自csv格式的表中的行）将它们存储在HDFS中。

在HDFS上存储数据时，基于Spring XD完成了一项计算某些聚合并生成同步部分数据的作业。

我们有关系数据，HDFS上的原始数据和依赖于POJO的MapReduce作业，这些作业描述了SpringXD中实现的相关语义和转换。

那么，问题是如何在上述场景中处理审计？我们需要在任何时候能够解释为什么做出具体决策，并且能够解释如何计算政策中使用的每个变量（同步或接近实时流）。

我查看了现有的Hadoop堆栈，看起来目前没有任何工具可以提供良好的企业级审计功能。

我的想法是从包含＆gt;

的客户实施开始

任何建议或分享您的经验将不胜感激！