将数据复制到Spark环境

时间:2019-04-29 18:07:30

标签: r apache-spark sparkr sparklyr azure-databricks

我正在尝试将数据复制到spark中并出现以下错误

as.data.frame.default(x,stringsAsFactors = FALSE,row.names = FALSE,中的错误:   无法将类“ structure(“ SparkDataFrame”,package =“ SparkR”)“强制转换为data.frame

我查看了文档,发现没有任何帮助

library(SparkR)
DF <- read.df("/FileStore/tables/export.csv", source = "csv", header="true", inferSchema = "true")

library(sparklyr)
library(dplyr)
sc <- spark_connect(method = "databricks")
#This gives the above error
DF_tbl <- sdf_copy_to(sc = sc, x = DF, overwrite = T)

1 个答案:

答案 0 :(得分:0)

如果无法访问export.csv,我将无法进行测试,但是问题可能是由于将SparkR函数( ie read.df())与{ {3}}函数( ie spark_connect()sdf_copy_to())。

我猜测sparklyr::sdf_copy_to()不接受SparkR的'SparkDataFrame'类的对象。

尝试用SparkR::read.df()readr::read_csv()之类的东西替换data.table::fread()