使用PySpark从azure blob存储中读取csv文件

时间:2017-12-18 15:33:01

标签: azure apache-spark pyspark azure-storage hdinsight

我正在尝试使用Microsoft Azure上的PySpark HDInsight群集进行机器学习项目。要在我的群集上运行,请使用Jupyter笔记本。此外,我有我的数据(一个csv文件),存储在Azure Blob存储上。

根据文档,我的文件路径的语法是:

path = 'wasb[s]://springboard@6zpbt6muaorgs.blob.core.windows.net/movies_plus_genre_info_2.csv'

但是,当我尝试使用以下命令读取csv文件时:

csvFile = spark.read.csv(path, header=True, inferSchema=True)

我收到以下错误:

'java.net.URISyntaxException: Illegal character in scheme name at index 4: wasb[s]://springboard@6zpbt6muaorgs.blob.core.windows.net/movies_plus_genre_info_2.csv'

以下是笔记本中错误的截图: error screenshot

有关如何解决此问题的任何想法?

1 个答案:

答案 0 :(得分:2)

它是(未加密的):

wasb://...

或(加密):

wasbs://...

wasb[s]://...