如何从Blob存储容器中导入和处理所有文件以使Azure数据块变成

时间:2018-10-03 07:23:57

标签: azure databricks azure-blob-storage

我正在使用azure数据块和blob存储。我有一个存储帐户,每小时存储一次来自IOT设备的数据。所以文件夹结构是     {年/月/日/小时} ,它将数据存储为 csv 文件。我的要求是,每天需要从azure databricks访问文件(因此从0-23开始会有24个文件夹),并且需要执行一些计算。

1 个答案:

答案 0 :(得分:0)

为了处理wasb容器下的许多文件,您需要使用Hadoop输入格式glob模式。模式如下,与正则表达式有些相似:

* (match 0 or more character)
? (match single character)
[ab] (character class)
[^ab] (negated character class)
[a-b] (character range)
{a,b} (alternation)
\c (escape character)

对于您的用例,应该可以进行以下操作:

df = spark.read.format("csv").load("/container/*/*/*/*.csv")