我们在金融领域实施的业务流量很少。监管部门的要求(不幸的是,不是非常具体)是为了审计目的而建立数据线。
该流程包含两部分:同步和异步。同步部分是一种付款尝试,包含有关销售点,客户和货物的大量信息。异步部分是一个批处理过程,每小时为信用评估数据模型提供一个新计算的变量部分。变量可能包括一些聚合,如余额和历史交易的链接。
为了计算异步部分,我们从多个关系数据库中提取数据,并以原始格式(来自csv格式的表中的行)将它们存储在HDFS中。
在HDFS上存储数据时,基于Spring XD完成了一项计算某些聚合并生成同步部分数据的作业。
我们有关系数据,HDFS上的原始数据和依赖于POJO的MapReduce作业,这些作业描述了SpringXD中实现的相关语义和转换。
那么,问题是如何在上述场景中处理审计? 我们需要在任何时候能够解释为什么做出具体决策,并且能够解释如何计算政策中使用的每个变量(同步或接近实时流)。
我查看了现有的Hadoop堆栈,看起来目前没有任何工具可以提供良好的企业级审计功能。
我的想法是从包含>
的客户实施开始任何建议或分享您的经验将不胜感激!
答案 0 :(得分:0)
当前,Cloudera为大数据空间中的数据沿袭/数据治理设定了行业标准。
词汇表,元数据和历史运行查询(版本)都可以得到简化。
当您问这个问题时,我确实意识到其中有些可能还没有到位,但现在已经确定了。
免责声明:我是Cloudera的员工