如何在Hadoop上实现Data Lineage?

时间:2016-05-30 14:28:02

标签: hadoop architecture finance data-lineage enterprise-architecture

我们在金融领域实施的业务流量很少。监管部门的要求(不幸的是,不是非常具体)是为了审计目的而建立数据线。

该流程包含两部分:同步和异步。同步部分是一种付款尝试,包含有关销售点,客户和货物的大量信息。异步部分是一个批处理过程,每小时为信用评估数据模型提供一个新计算的变量部分。变量可能包括一些聚合,如余额和历史交易的链接。

为了计算异步部分,我们从多个关系数据库中提取数据,并以原始格式(来自csv格式的表中的行)将它们存储在HDFS中。

在HDFS上存储数据时,基于Spring XD完成了一项计算某些聚合并生成同步部分数据的作业。

我们有关系数据,HDFS上的原始数据和依赖于POJO的MapReduce作业,这些作业描述了SpringXD中实现的相关语义和转换。

那么,问题是如何在上述场景中处理审计? 我们需要在任何时候能够解释为什么做出具体决策,并且能够解释如何计算政策中使用的每个变量(同步或接近实时流)。

我查看了现有的Hadoop堆栈,看起来目前没有任何工具可以提供良好的企业级审计功能。

我的想法是从包含>

的客户实施开始
  1. 包含所有业务条款的业务词汇表
  2. 操作和技术元数据 - 将每个条目的转换执行记录到单独的商店中。
  3. 记录对业务逻辑的更改(使用版本控制中保存业务规则和转换的数据)。
  4. 任何建议或分享您的经验将不胜感激!

1 个答案:

答案 0 :(得分:0)

当前,Cloudera为大数据空间中的数据沿袭/数据治理设定了行业标准。

词汇表,元数据和历史运行查询(版本)都可以得到简化。

当您问这个问题时,我确实意识到其中有些可能还没有到位,但现在已经确定了。


免责声明:我是Cloudera的员工