传统数据湖与AWS湖形成

时间:2019-08-20 07:55:26

标签: amazon-web-services databricks aws-glue

我一直在为客户端建立数据湖,我们将来自本地或任何其他来源的数据加载到S3(数据湖)中。我们将在这些原始数据上创建一个AWS Glue目录,以创建架构。

下一步是使用EMR或AWS Glue进行某些数据清理,将转换后的数据加载到RDS / REDSHIFT / S3中作为最终目标。

可以使用数据管道,Glue Jobs或AWS Lambda事件触发器来调度作业,具体取决于使用的用例/服务。

使用IAM服务为分析师提供其他数据/ S3存储桶访问权限,以实现Quicksight可视化,或使用Athena,Drill等查询数据,或者将数据用于Sagemaker中的ML应用程序。

我的问题是AWS Lake Formation与传统的Data Lakes有何不同?

我可以定义AWS Lake Formation提供上述所有服务,例如S3,Glue目录,Glue中的ETL代码生成器,Job Scheduler等,是否在单个窗口中可用?通过为用户/数据(记录/列级)提供的一些更高级的安全性,可以在Lake Formation控制台中进行配置。

还有什么其他因素可以使Lake的形成与传统的基于云的Data Lake脱颖而出?

谢谢

2 个答案:

答案 0 :(得分:1)

您的理解是正确的,AWS Lake Formation本质上只是一个权限模型,可与其他AWS数据湖工具(Athena,S3,Glue,EMR等)紧密集成。还有一些其他功能(如蓝图)(用于同步)数据从RDBMS发送到S3),乔布斯(用于ETL)和抓取工具(用于数据发现)。

一旦Lake Formation完全设置完毕,它就可以通过Lake Formation UI集中管理您湖中所有角色的权限管理,而不必每次角色需要新的访问权限时都更新各个存储段策略和IAM权限。此外,您还可以在列级别授予权限。

目前,Lake Formation还没有提供更多的东西。

答案 1 :(得分:1)

AWS Lake Formation主要是一个权限控制层,它与AWS Glue耦合在一起,基本上提供了与权限控制耦合的目录。 Lake Formation可以从管理IAM权限中获得延缓,而可以使用类似于授予的简单DB提供其自己的基于Grant的细粒度权限控制。

在与某些数据服务(如EMR)集成方面,湖泊形成仍面临一些挑战(需要其他IAM策略) 但是总体上,通过将Lake Formation与S3结合使用,Glue ETL提供了构建数据湖所需的一切。

改进的UI和数据发现仍然可以使湖泊形成受益。

您可以使用Lake Formation来实现传统样式的Data Lake或使其更具模块化,并为多个AWS账户提供支持。