如何从Spark和Scala中的Azure blob存储中获取文件列表。
我不知道如何处理这个问题。
答案 0 :(得分:0)
我不知道您使用的Spark是在Azure上还是在本地。所以他们是两个案例,但相似。
对于在本地运行的Spark,有一个官方blog介绍了如何从Spark访问Azure Blob存储。关键是您需要在core-site.xml
文件中将Azure存储帐户配置为HDFS兼容存储,并添加两个jar hadoop-azure
& azure-storage
到您的类路径,通过协议wasb[s]
访问HDFS。您可以参考官方tutorial以了解与wasb
兼容的HDFS兼容存储,以及有关HDInsight配置的blog更多详情。
对于在Azure上运行的Spark,区别仅在于使用wasb
访问HDFS,在使用Spark创建HDInsight群集时,Azure已完成其他准备工作。
列出文件的方法是SparkContext
或listFiles
{{1}}。
希望它有所帮助。
答案 1 :(得分:0)
如果您正在使用数据块,请尝试以下
dbutils.fs.ls(“ blob_storage_location”)