DBFS使用什么s3存储桶?如何获取DBFS路径的S3位置

时间:2019-10-04 16:38:02

标签: amazon-s3 databricks aws-glue delta-lake

我正在尝试将Hive元数据迁移到Glue。迁移增量表时,当我提供相同的dbfs路径时,出现错误-“无法创建表:关联位置不为空。

当我尝试在S3位置上创建相同的增量表时,它工作正常。

是否可以找到指向数据库的DBFS路径的S3位置?

1 个答案:

答案 0 :(得分:0)

首先将Databricks Runtime配置为使用AWS Glue数据目录作为其元存储,然后迁移增量表。

每个Databricks部署都有一个中央的Hive元存储,所有群集均可访问以存储表元数据。您可以选择使用现有的外部Hive元存储实例或AWS Glue目录,而不必使用Databricks Hive元存储。

Databricks文件系统(DBFS)是安装在Databricks工作区中的分布式文件系统,可在Databricks群集上使用。 DBFS是可伸缩对象存储之上的抽象,具有以下优点:

  • 允许您挂载存储对象,以便无需凭据即可无缝访问数据。
  • 允许您使用目录和文件语义而不是存储URL与对象存储进行交互。
  • 将文件保留在对象存储中,因此在终止集群后不会丢失数据。
  

是否有找到数据库DBFS路径的S3位置的方法   被指向?

您可以通过使用DBFS或直接使用API​​装载存储桶来访问AWS S3存储桶。

参考:“ Databricks - Amazon S3

希望这会有所帮助。