应用错误收集

AWS Glue Data Catalog as Metastore用于Databricks等外部服务

时间：2018-04-16 02:36:55

标签： amazon-s3 databricks aws-glue data-lake hive-metastore

让我们说，数据提取在AWS上。使用S3作为存储，使用Glue作为数据目录。因此，我们可以使用Glue作为Metastore轻松使用athena，redshift或EMR查询S3上的数据。

我的问题是，是否可以将Glue数据目录公开为AWS上托管的Databricks等外部服务的Metastore？

2 个答案:

答案 0 :(得分：1)

Databricks提供了一些不错的文档/文章（请参阅docs和blog post），尽管它们涵盖了自定义/旧式Hive元存储集成，而不是Glue本身。

也-作为 B计划-应该可以检查Databricks元存储中的表/分区定义，并通过Java SDK向Glue进行单向复制（或者可以采用另一种方式）同样，将AWS API响应映射到create table / create partition语句的序列）。当然，这是相当复杂的情况，例如级联的分区/表删除之类的情况，但是对于某些简单的仅创建的东西，它似乎至少是可以实现的。

答案 1 :(得分：1)

现在，Databricks提供了将Glue Data Catalog设置为Metastore的文档。应该按照以下步骤操作：

创建IAM角色和策略以访问Glue数据目录
为目标胶目录创建策略
查找用于创建Databricks部署的IAM角色
将胶水目录IAM角色添加到EC2策略中
将Glue Catalog IAM角色添加到Databricks工作区
使用Glue Catalog IAM角色启动集群

参考：https://docs.databricks.com/data/metastores/aws-glue-metastore.html。