当我们使用GCP Cloud存储实现数据湖,并使用Dataproc,Dataflow等Cloud服务实现数据处理时,如何在GCP中生成数据沿袭报告。谢谢。
答案 0 :(得分:3)
Google Cloud Platform没有无服务器数据沿袭产品。
相反,您可能要在Google Cloud Dataproc上安装Apache Atlas并将其用于数据沿袭。
答案 1 :(得分:0)
如果数据沿袭对您很重要,您会发现自己想要一个企业数据云。
Cloudera是该领域的主要供应商,可让您通过成熟的数据治理在Google Cloud(或其他任何地方)上工作。
尽管我本人是对此消息的幕后支持者,但我想提一提,我恰好是Cloudera的雇员。
答案 2 :(得分:0)
Google Cloud Data Fusion支持企业版中的沿袭。您可以使用DF构建和编排管道,并使用Dataproc和Dataflow作为运行它们的能力。 CDF沿袭简介可在以下文档中找到:https://cloud.google.com/data-fusion/docs/tutorials/lineage
如果您不使用CDF功能,那么仅是沿袭就有点过头了。至少在我的许多用例中,Google Cloud Data Catalog中的沿袭功能都是最佳的。不幸的是,当前CDC不支持沿袭。我希望它会出现在产品路线图中,并且将来会支持产品线。