我正在尝试在Azure Databricks(而不是笔记本)上部署Scala库以执行一些计算。我正在尝试从Azure Datalake Store Gen 2目录中读取一些avro文件,进行一些操作,然后使用avro将其再次存储在另一个目录中。
我正在关注guide。
我的理解是,我需要挂载Azure Datalake的目录,以便可以从那里直接读取avro文件,因此我需要执行以下操作:
X = np.mean(np.array(img, dtype="float64"), axis=2)
我的问题是我不知道如何将“ dbutils”对象导入到我的项目中。我还使用Java SDK library(版本12.0.0-preview.6)来检索文件,但是基本上我不知道如何使用Databricks来进行操作。
任何帮助或提示将不胜感激。
答案 0 :(得分:1)
如果要使用dbutils挂载目录(反之亦然),则不需要Azure Storage Java SDK。
dbutils挂载可用于一次挂载存储帐户,因此之后您可以仅使用/ mnt路径。
您可以在以下存储库中找到dbutils:
libraryDependencies += "com.databricks" % "dbutils-api_2.11" % "0.0.4"
更多信息,请访问: https://docs.databricks.com/dev-tools/databricks-utils.html#databricks-utilities-api-library
您也始终可以直接直接使用abfss
路径,因此并非绝对必要挂载。