使用Azure Data Factory V2中的spark活动列出blob存储容器中的文件

时间:2018-03-27 09:46:04

标签: azure pyspark azure-storage-blobs azure-data-factory-2

我想知道如何使用Azure Data Factory V2中的活动(最好是pyspark)来连接并列出blob存储容器中可用的文件

2 个答案:

答案 0 :(得分:1)

有几种方法可以帮到你:

  

当您在Azure中使用HDInsight Hadoop或Spark群集时,它们会自动预先配置为通过实现标准Hadoop FilesSystem接口的hadoop-azure模块访问Azure存储Blob。您可以在 https://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-use-blob-storage/

了解有关HDInsight如何使用blob存储的详情

详细指南可在此博客文章中找到:https://blogs.msdn.microsoft.com/arsen/2016/07/13/accessing-azure-storage-blobs-from-spark-1-6-that-is-running-locally/

另一个显示存储API使用与Spark集成的来源可以在幻灯片中找到:https://www.slideshare.net/BrajaDas/azure-blob-storage-api-for-scala-and-spark

答案 1 :(得分:0)

此python脚本允许通过使用Azure Datafactory V2运行的pyspark脚本访问blob。

https://github.com/Azure-Samples/storage-blobs-python-quickstart/blob/master/example.py

但是我必须使用

from azure.storage.blob import BlobService

而不是建议的

from azure.storage.blob import BlockBlobService