AWS Glue Data Catalog as Metastore用于Databricks等外部服务

时间:2018-04-16 02:36:55

标签: amazon-s3 databricks aws-glue data-lake hive-metastore

让我们说,数据提取在AWS上。使用S3作为存储,使用Glue作为数据目录。 因此,我们可以使用Glue作为Metastore轻松使用athena,redshift或EMR查询S3上的数据。

我的问题是,是否可以将Glue数据目录公开为AWS上托管的Databricks等外部服务的Metastore?

2 个答案:

答案 0 :(得分:1)

Databricks提供了一些不错的文档/文章(请参阅docsblog post),尽管它们涵盖了自定义/旧式Hive元存储集成,而不是Glue本身。

也-作为 B计划-应该可以检查Databricks元存储中的表/分区定义,并通过Java SDK向Glue进行单向复制(或者可以采用另一种方式)同样,将AWS API响应映射到create table / create partition语句的序列)。当然,这是相当复杂的情况,例如级联的分区/表删除之类的情况,但是对于某些简单的仅创建的东西,它似乎至少是可以实现的。

答案 1 :(得分:1)

现在,Databricks提供了将Glue Data Catalog设置为Metastore的文档。应该按照以下步骤操作:

  1. 创建IAM角色和策略以访问Glue数据目录
  2. 为目标胶目录创建策略
  3. 查找用于创建Databricks部署的IAM角色
  4. 将胶水目录IAM角色添加到EC2策略中
  5. 将Glue Catalog IAM角色添加到Databricks工作区
  6. 使用Glue Catalog IAM角色启动集群

参考:https://docs.databricks.com/data/metastores/aws-glue-metastore.html