通过R访问Azure Blob存储

时间:2020-03-13 01:16:50

标签: r azure blob databricks azure-data-lake

我正在尝试使用R来连接到我存储了一些CSV文件的Azure Blob。在将它们写回到另一个Blob容器之前,我需要将它们加载到数据帧中并对其进行一些转换。我正在尝试通过Databricks进行此操作,以便最终可以从Data Factories中调用此笔记本并将其包含在管道中。

Databricks给了我一个Python示例笔记本,可以使用以下代码建立连接:

storage_account_name = "testname"
storage_account_access_key = "..."
file_location = "wasb://example@testname.blob.core.windows.net/testfile.csv"

spark.conf.set(
  "fs.azure.account.key."+storage_account_name+".blob.core.windows.net",
  storage_account_access_key)

df = spark.read.format('csv').load(file_location, header = True, inferSchema = True)

R中是否有类似的东西?如果可以帮助我加载文件并将其放置在Spark数据框中,则可以在R中使用SparkR或Sparklyr软件包。

1 个答案:

答案 0 :(得分:3)

为您提供信息,我得知R无法进行实际安装。解决方法是使用另一种语言(如Python)进行挂载,并使用库“ SparkR”读取文件,如下所示。

提供R到Spark的两个最常用的库是SparkR和sparklyr。尽管不能同时使用同一对象的SparkR和sparklyr函数,但Databricks笔记本和作业支持这两个软件包。

使用Python安装:

enter image description here

使用“ SparkR”库运行R Notebook:

enter image description here