Question

我正在尝试在Azure Databricks（而不是笔记本）上部署Scala库以执行一些计算。我正在尝试从Azure Datalake Store Gen 2目录中读取一些avro文件，进行一些操作，然后使用avro将其再次存储在另一个目录中。

我正在关注guide。

我的理解是，我需要挂载Azure Datalake的目录，以便可以从那里直接读取avro文件，因此我需要执行以下操作：

X = np.mean(np.array(img, dtype="float64"), axis=2)

我的问题是我不知道如何将“ dbutils”对象导入到我的项目中。我还使用Java SDK library（版本12.0.0-preview.6）来检索文件，但是基本上我不知道如何使用Databricks来进行操作。

任何帮助或提示将不胜感激。

Answer 1

如果要使用dbutils挂载目录（反之亦然），则不需要Azure Storage Java SDK。

dbutils挂载可用于一次挂载存储帐户，因此之后您可以仅使用/ mnt路径。

您可以在以下存储库中找到dbutils：

libraryDependencies += "com.databricks" % "dbutils-api_2.11" % "0.0.4"

您也始终可以直接直接使用abfss路径，因此并非绝对必要挂载。