如何使用Spark / Scala从Azure blob获取文件列表?

时间:2017-04-18 13:57:56

标签: azure apache-spark spark-streaming spark-dataframe azure-storage-blobs

如何从Spark和Scala中的Azure blob存储中获取文件列表。

我不知道如何处理这个问题。

2 个答案:

答案 0 :(得分:0)

我不知道您使用的Spark是在Azure上还是在本地。所以他们是两个案例,但相似。

  1. 对于在本地运行的Spark,有一个官方blog介绍了如何从Spark访问Azure Blob存储。关键是您需要在core-site.xml文件中将Azure存储帐户配置为HDFS兼容存储,并添加两个jar hadoop-azure& azure-storage到您的类路径,通过协议wasb[s]访问HDFS。您可以参考官方tutorial以了解与wasb兼容的HDFS兼容存储,以及有关HDInsight配置的blog更多详情。

  2. 对于在Azure上运行的Spark,区别仅在于使用wasb访问HDFS,在使用Spark创建HDInsight群集时,Azure已完成其他准备工作。

  3. 列出文件的方法是SparkContextlistFiles {{1}}。

    希望它有所帮助。

答案 1 :(得分:0)

如果您正在使用数据块,请尝试以下

dbutils.fs.ls(“ blob_storage_location”)