如何在GCP中执行数据沿袭?

时间:2019-03-05 10:40:15

标签: google-cloud-platform bigdata google-cloud-dataproc data-lineage

当我们使用GCP Cloud存储实现数据湖,并使用Dataproc,Dataflow等Cloud服务实现数据处理时,如何在GCP中生成数据沿袭报告。谢谢。

3 个答案:

答案 0 :(得分:3)

Google Cloud Platform没有无服务器数据沿袭产品。

相反,您可能要在Google Cloud Dataproc上安装Apache Atlas并将其用于数据沿袭。

答案 1 :(得分:0)

如果数据沿袭对您很重要,您会发现自己想要一个企业数据云。

Cloudera是该领域的主要供应商,可让您通过成熟的数据治理在Google Cloud(或其他任何地方)上工作。


尽管我本人是对此消息的幕后支持者,但我想提一提,我恰好是Cloudera的雇员。

答案 2 :(得分:0)

Google Cloud Data Fusion支持企业版中的沿袭。您可以使用DF构建和编排管道,并使用Dataproc和Dataflow作为运行它们的能力。 CDF沿袭简介可在以下文档中找到:https://cloud.google.com/data-fusion/docs/tutorials/lineage

如果您不使用CDF功能,那么仅是沿袭就有点过头了。至少在我的许多用例中,Google Cloud Data Catalog中的沿袭功能都是最佳的。不幸的是,当前CDC不支持沿袭。我希望它会出现在产品路线图中,并且将来会支持产品线。