我正在尝试从Azure存储帐户读取文件。特别是,我想读取某个文件夹中包含的所有文件,例如:
lines = sc.textFile('/path_to_azure_folder/*')
我不太清楚路径应该是什么。我尝试使用Azure中的URL服务blob端点,然后是文件夹路径(我尝试使用http和https):
lines = sc.textFile('https://container_name.blob.core.windows.net/path_to_folder/*')
并没有奏效:
诊断:由于AM Container for,应用程序XXXXXX失败了5次 XXXXXXXX退出exitCode:1诊断:异常来自 集装箱推出。容器ID:XXXXXXXXX退出代码:1
当我点击“信息”时,我提供的网址与使用CyberDuck App的网址相同。
答案 0 :(得分:1)
您的路径应如下所示
lines = sc.textFile("wasb://containerName@$storageAccountName.blob.core.windows.net/folder_path/*")
这可以解决您的问题。
答案 1 :(得分:1)
如果您尝试读取Azure存储帐户中的所有blob,则可能需要查看我们提供的用于检索和操作数据的工具和库。入门文档here。
希望这有用!