无法使用PySpark和Databricks Connect连接到Azure Data Lake Gen2

时间:2019-06-21 11:09:11

标签: apache-spark pyspark databricks azure-databricks

最近,Databricks推出了Databricks Connect

  

允许您使用Spark本机API编写作业,并使它们在Azure Databricks群集上而不是在本地Spark会话中远程执行。

它工作正常,但当我尝试访问Azure Data Lake Storage Gen2中的文件时除外。当我执行此操作时:

spark.read.json("abfss://...").count()

我收到此错误:

java.lang.RuntimeException: java.lang.ClassNotFoundException: Class shaded.databricks.v20180920_b33d810.org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem not found   at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2195)

有人知道如何解决此问题吗?

更多信息:

1 个答案:

答案 0 :(得分:0)

如果您挂接存储而不是使用服务主体,则应该可以使用:https://docs.databricks.com/spark/latest/data-sources/azure/azure-datalake-gen2.html

我在此处发布了有关数据砖连接限制的一些说明。 https://datathirst.net/blog/2019/3/7/databricks-connect-limitations