按分区从Azure Blob存储读取文件

时间:2019-08-30 00:33:23

标签: scala azure apache-spark databricks

我按如下所示设置了天蓝色blob存储容器

存储帐户->容器-> YYYY / MM / DD / abc01.json

目录层次结构每天基于Day创建一次。意味着每天都会创建一个新的“ DD”目录,并将新文件加载到该目录中。下个月也是如此。

如何从scala笔记本中读取此分区结构,这使我可以根据传递的根目录读取所有abc * .json文件。

例如:如果我要加载一个月的所有文件,我应该能够做到。

对此有任何帮助

此致

马克

1 个答案:

答案 0 :(得分:1)

您可以按如下所示通过路径:

wasb://YOURDefaultContainer@YOURStorageAccount.blob.core.windows.net/YYYY/MM/*/abc*.json

您需要指定 YYYY MM 值,并且由于要加载一个月的所有文件,因此可以使用通配符。