让我们说,数据提取在AWS上。使用S3作为存储,使用Glue作为数据目录。 因此,我们可以使用Glue作为Metastore轻松使用athena,redshift或EMR查询S3上的数据。
我的问题是,是否可以将Glue数据目录公开为AWS上托管的Databricks等外部服务的Metastore?
答案 0 :(得分:1)
Databricks提供了一些不错的文档/文章(请参阅docs和blog post),尽管它们涵盖了自定义/旧式Hive元存储集成,而不是Glue本身。
也-作为 B计划-应该可以检查Databricks元存储中的表/分区定义,并通过Java SDK向Glue进行单向复制(或者可以采用另一种方式)同样,将AWS API响应映射到create table
/ create partition
语句的序列)。当然,这是相当复杂的情况,例如级联的分区/表删除之类的情况,但是对于某些简单的仅创建的东西,它似乎至少是可以实现的。
答案 1 :(得分:1)
现在,Databricks提供了将Glue Data Catalog设置为Metastore的文档。应该按照以下步骤操作:
参考:https://docs.databricks.com/data/metastores/aws-glue-metastore.html。