Data Lineage和Data Provenance之间有什么区别？

时间：2017-04-13 03:46:26

标签： database data-warehouse

来自wiki，

数据沿袭定义为数据生命周期，包括数据的来源以及数据随时间变化的位置。它描述了数据在经历各种流程时会发生什么。它有助于提供对分析管道的可见性，并将跟踪错误简化回源。

数据来源记录了影响感兴趣数据的输入，实体，系统和流程，实际上提供了数据及其来源的历史记录。

似乎这两个概念都在谈论数据的来源，但我仍然对这些差异感到困惑。两个概念是否相同？如果它们不同，有人可以分享一个例子吗？

谢谢，

7 个答案:

答案 0 :(得分：12)

根据我们的经验，数据来源仅包含针对业务用户的高级系统视图，因此他们可以粗略地浏览数据来自何处。它由各种建模工具或简单的自定义表格和图表提供。 数据沿袭是一个更具体的术语，包括两个方面 - 业务（数据）沿袭和技术（数据）沿袭。业务沿袭图像数据在业务级别上流动，并且由Collibra，Alation和许多其他解决方案提供。技术数据沿袭是从实际技术元数据创建的，并跟踪最低级别的数据流 - 实际表格，脚本和语句。技术数据沿袭由MANTA或Informatica Metadata Manager等解决方案提供。

答案 1 :(得分：1)

数据来源是

数据沿袭（系谱学，其旅程的历史，它的起源，它是如何形成的，随着时间的推移如何变化，发生了什么，它所经历的系统，任何损失或收获）（即面向数据的元数据）

加

影响数据的输入，实体，系统和过程（即面向过程的），可用于再现数据。

答案 2 :(得分：1)

请参阅维基百科有关出处的本节：https://en.wikipedia.org/wiki/Provenance#Science。它链接到关于出处的学术和行业著作集。

要简洁地回答您的问题：一般，没有足够的上下文来区分数据血统和数据出处。在特定的上下文中，您可以查找或创建特定且可能不同的定义。

答案 3 :(得分：0)

数据来源是数据项的起点，数据谱系是从起点到系统中当前观察点的完整数据转换过程。

答案 4 :(得分：0)

我相信，更简单的解释是谁拥有它，谁碰过它以及它的去向。

从业务角度讲，可以在数据流程图中进行总结。

从技术上讲，当数据从一个系统流到另一个系统时，要开始添加这些数据是一大包子。必须有一些巨大的理由才能绕过这座山，目的是什么？要看一些漂亮的图吗？在大型现实环境中不会发生这种情况。 $$的理由是什么？

用一个简单的2到4字节原始代码标记数据在系统之间移动是一回事，但是要保留所有其他技术，系统性能下降/ dasd /备份等方面的成本。一个漂亮的图？没办法...

答案 5 :(得分：0)

数据沿袭数据来源：目标 数据沿袭工具的关键目标是从数据生成到数据耗尽的数据生命周期管理。

另一方面，数据来源的关键目标是在三个关键阶段中专门跟踪数据起源和隔离数据。这些阶段是动态数据，处理中数据和静态数据。

数据沿袭数据来源：组件 数据沿袭的关键组成部分包括Web门户，数据捕获源和数据培育方法。这些组件还包括数据鉴定系统，CRM系统和ERP系统。

另一方面，数据来源的关键组成部分包括所有数据沿袭组成部分以及其他一些组成部分。这些附加组件正在跟踪捕获源和数据输入方法。

数据沿袭数据来源：挑战 数据沿袭的主要挑战包括管理大量数据。它还包括维护数据沿袭，跟踪跨渠道以及统一不同的促销系统。

尽管数据来源的关键挑战包括数据沿袭挑战以及其他一些挑战。其他挑战包括庞大而复杂的工作流程，以及再现执行以保留数据。

Here's the link to the complete post。

答案 6 :(得分：0)

定义

让我强调一下我认为在数据沿袭定义中没有的数据来源的关键部分：

<块引用>

提供数据及其来源的历史记录

尽管措辞不同，但我相信这一补充是在如何定义出处和血统方面唯一相关的区别。

解释

我遵循的解释以及我在大数据上下文中经常看到的解释是，谱系向您展示了数据采用的路径，但出处可让您了解数据沿途的样子。< /p>

示例

如果您有执行此操作的工作流程：

从源 a、b 收集输入 > 合并到 c > 以“随机”方式更新并存储在 d 中

然后我会说谱系允许您知道数据从 a、b 到 c 到 d。深厚的血统甚至可以让您看到用于此的逻辑。然而，这可能不会让你知道 c 是什么样子，在理论上的随机示例中，这希望是清楚的，但在实践中随机情况较少，但许多不可复制的情况甚至可能是随机的。

现在出处会跟踪所采取的路径，此外还有数据在 c 中的样子。

实施注意事项

正如其他人提到的，跟踪和存储来源可能是一个沉重的负担，但它可以很好地协助开发，尤其是流式数据流（就像到处都有调试点）。此外，在某些情况下，出处非常重要（或数据量和转换次数相对较少），以至于人们可能希望将出处保留一段时间。

在实践中，出处的保存时间没有谱系那么长，但一些工具（如 NiFi）确实可以立即捕获它，将其在最有价值的地方保留一小段时间，并同时跟踪正常谱系。

完全披露和免责声明：虽然我是 Cloudera 的一名员工，这是一家与治理、血统和 NiFi 等产品密切相关的公司，但以上描述是基于我的个人经验，以及与同事和客户讨论血统和起源的过程。