如何获取Azure容器文件夹的正确路径?

时间:2015-12-04 18:34:56

标签: azure apache-spark azure-storage-blobs

我正在尝试从Azure存储帐户读取文件。特别是,我想读取某个文件夹中包含的所有文件,例如:

lines = sc.textFile('/path_to_azure_folder/*')

我不太清楚路径应该是什么。我尝试使用Azure中的URL服务blob端点,然后是文件夹路径(我尝试使用http和https):

lines = sc.textFile('https://container_name.blob.core.windows.net/path_to_folder/*')

并没有奏效:

  

诊断:由于AM Container for,应用程序XXXXXX失败了5次   XXXXXXXX退出exitCode:1诊断:异常来自   集装箱推出。容器ID:XXXXXXXXX退出代码:1

当我点击“信息”时,我提供的网址与使用Cyber​​Duck App的网址相同。

2 个答案:

答案 0 :(得分:1)

您的路径应如下所示

lines = sc.textFile("wasb://containerName@$storageAccountName.blob.core.windows.net/folder_path/*")

这可以解决您的问题。

答案 1 :(得分:1)

如果您尝试读取Azure存储帐户中的所有blob,则可能需要查看我们提供的用于检索和操作数据的工具和库。入门文档here

希望这有用!