我正在使用 Azure Databricks 和 ADLS 存储层。我怀疑 DBFS 和 Filestore 之间有什么区别?任何想法,可以存储在 Filestore 中的文件的最大大小是多少? 我们可以将输出文件存储在 Filestore 中然后覆盖它们吗?
谢谢。
答案 0 :(得分:1)
DBFS 是对云存储实现的抽象,允许您使用简单的路径而不是完整的 URL 来处理云存储中的文件。来自文档:
<块引用>Databricks 文件系统 (DBFS) 是安装在 Databricks 工作区中的分布式文件系统,可在 Databricks 集群上使用。 DBFS 是可扩展对象存储之上的抽象,具有以下优点:
实际上,在 Azure 上它使用相同的 ADLS,因此应适用相同的限制(current limit 是每个文件 200Tb)。
附言请注意,有所谓的 DBFS Root - 从创建工作区期间自动创建的存储帐户创建,并且 DBFS 挂载到“外部”存储帐户。通常建议仅将 DBFS Root 用于临时文件,因为如果删除工作区,该存储帐户也会被删除。