应用错误收集

时间：2019-08-20 07:55:26

标签： amazon-web-services databricks aws-glue

我一直在为客户端建立数据湖，我们将来自本地或任何其他来源的数据加载到S3（数据湖）中。我们将在这些原始数据上创建一个AWS Glue目录，以创建架构。

下一步是使用EMR或AWS Glue进行某些数据清理，将转换后的数据加载到RDS / REDSHIFT / S3中作为最终目标。

可以使用数据管道，Glue Jobs或AWS Lambda事件触发器来调度作业，具体取决于使用的用例/服务。

使用IAM服务为分析师提供其他数据/ S3存储桶访问权限，以实现Quicksight可视化，或使用Athena，Drill等查询数据，或者将数据用于Sagemaker中的ML应用程序。

我的问题是AWS Lake Formation与传统的Data Lakes有何不同？

我可以定义AWS Lake Formation提供上述所有服务，例如S3，Glue目录，Glue中的ETL代码生成器，Job Scheduler等，是否在单个窗口中可用？通过为用户/数据（记录/列级）提供的一些更高级的安全性，可以在Lake Formation控制台中进行配置。

还有什么其他因素可以使Lake的形成与传统的基于云的Data Lake脱颖而出？

谢谢

答案 0 :(得分：1)

您的理解是正确的，AWS Lake Formation本质上只是一个权限模型，可与其他AWS数据湖工具（Athena，S3，Glue，EMR等）紧密集成。还有一些其他功能（如蓝图）（用于同步）数据从RDBMS发送到S3），乔布斯（用于ETL）和抓取工具（用于数据发现）。

一旦Lake Formation完全设置完毕，它就可以通过Lake Formation UI集中管理您湖中所有角色的权限管理，而不必每次角色需要新的访问权限时都更新各个存储段策略和IAM权限。此外，您还可以在列级别授予权限。

目前，Lake Formation还没有提供更多的东西。

答案 1 :(得分：1)

AWS Lake Formation主要是一个权限控制层，它与AWS Glue耦合在一起，基本上提供了与权限控制耦合的目录。 Lake Formation可以从管理IAM权限中获得延缓，而可以使用类似于授予的简单DB提供其自己的基于Grant的细粒度权限控制。

在与某些数据服务（如EMR）集成方面，湖泊形成仍面临一些挑战（需要其他IAM策略）但是总体上，通过将Lake Formation与S3结合使用，Glue ETL提供了构建数据湖所需的一切。

改进的UI和数据发现仍然可以使湖泊形成受益。

您可以使用Lake Formation来实现传统样式的Data Lake或使其更具模块化，并为多个AWS账户提供支持。