DBFS AZURE Databricks - 文件存储和 DBFS 的区别

时间:2021-05-17 05:26:48

标签: azure databricks azure-databricks

我正在使用 Azure Databricks 和 ADLS 存储层。我怀疑 DBFS 和 Filestore 之间有什么区别?任何想法,可以存储在 Filestore 中的文件的最大大小是多少? 我们可以将输出文件存储在 Filestore 中然后覆盖它们吗?

谢谢。

1 个答案:

答案 0 :(得分:1)

DBFS 是对云存储实现的抽象,允许您使用简单的路径而不是完整的 URL 来处理云存储中的文件。来自文档:

<块引用>

Databricks 文件系统 (DBFS) 是安装在 Databricks 工作区中的分布式文件系统,可在 Databricks 集群上使用。 DBFS 是可扩展对象存储之上的抽象,具有以下优点:

  • 允许您挂载存储对象,以便您无需凭据即可无缝访问数据。
  • 允许您使用目录和文件语义而不是存储 URL 与对象存储进行交互。
  • 将文件保留到对象存储中,因此您在终止集群后不会丢失数据。

实际上,在 Azure 上它使用相同的 ADLS,因此应适用相同的限制(current limit 是每个文件 200Tb)。

附言请注意,有所谓的 DBFS Root - 从创建工作区期间自动创建的存储帐户创建,并且 DBFS 挂载到“外部”存储帐户。通常建议仅将 DBFS Root 用于临时文件,因为如果删除工作区,该存储帐户也会被删除。