Azure Datalake Store Gen2使用Scala Spark库从Databricks读取文件

时间:2020-03-17 09:09:47

标签: scala azure-data-lake azure-databricks azure-data-lake-gen2

我正在尝试在Azure Databricks(而不是笔记本)上部署Scala库以执行一些计算。我正在尝试从Azure Datalake Store Gen 2目录中读取一些avro文件,进行一些操作,然后使用avro将其再次存储在另一个目录中。

我正在关注guide

我的理解是,我需要挂载Azure Datalake的目录,以便可以从那里直接读取avro文件,因此我需要执行以下操作:

X = np.mean(np.array(img, dtype="float64"), axis=2)

我的问题是我不知道如何将“ dbutils”对象导入到我的项目中。我还使用Java SDK library(版本12.0.0-preview.6)来检索文件,但是基本上我不知道如何使用Databricks来进行操作。

任何帮助或提示将不胜感激。

1 个答案:

答案 0 :(得分:1)

如果要使用dbutils挂载目录(反之亦然),则不需要Azure Storage Java SDK。

dbutils挂载可用于一次挂载存储帐户,因此之后您可以仅使用/ mnt路径。

您可以在以下存储库中找到dbutils:

libraryDependencies += "com.databricks" % "dbutils-api_2.11" % "0.0.4"

更多信息,请访问: https://docs.databricks.com/dev-tools/databricks-utils.html#databricks-utilities-api-library

您也始终可以直接直接使用abfss路径,因此并非绝对必要挂载。