最近,Databricks推出了Databricks Connect
允许您使用Spark本机API编写作业,并使它们在Azure Databricks群集上而不是在本地Spark会话中远程执行。
它工作正常,但当我尝试访问Azure Data Lake Storage Gen2中的文件时除外。当我执行此操作时:
spark.read.json("abfss://...").count()
我收到此错误:
java.lang.RuntimeException: java.lang.ClassNotFoundException: Class shaded.databricks.v20180920_b33d810.org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem not found at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2195)
有人知道如何解决此问题吗?
更多信息:
答案 0 :(得分:0)
如果您挂接存储而不是使用服务主体,则应该可以使用:https://docs.databricks.com/spark/latest/data-sources/azure/azure-datalake-gen2.html
我在此处发布了有关数据砖连接限制的一些说明。 https://datathirst.net/blog/2019/3/7/databricks-connect-limitations