如何使用Spark在天蓝色存储中的不同容器之间移动文件

时间:2019-08-19 00:18:51

标签: python-3.x azure apache-spark spark-streaming

从天蓝色blob(容器已预处理)读取所有csv文件后,我想将文件移至其他容器(已处理)。我已经知道如何在Azure数据工厂中执行此操作,但是我正在尝试查找是否可以立即执行操作。

我可以使用以下代码读取csv文件。

containerName = "containerName" #container name
storageAccountName = " storageAccountName " #storage account name
storageAccountKey = " storageAccountKey” #storage account key

spark.conf.set(
  "fs.azure.account.key.%(storageAccountName)s.blob.core.windows.net" % locals(),
  storageAccountKey)

connectionString = "wasbs://%(containerName)s@%(storageAccountName)s.blob.core.windows.net/" % locals()  #connection string

PBNames = spark.read.csv("%(connectionString)s/*.csv" % locals(), header='true', inferSchema='true')

有人可以指导我如何使用spark将文件移动到同一存储中的不同容器中。我已经知道如何在Azure数据工厂中做到这一点

0 个答案:

没有答案