无法使用spark_read_csv()将csv读入Spark

时间:2016-10-06 16:46:16

标签: r csv apache-spark sparklyr

我正在尝试使用sparklyr将csv文件读入R.我可以使用read.csv()将.csv读入R中,但是当我尝试使用spark_read_csv()时它崩溃了。

accidents <- spark_read_csv(sc, name = 'accidents', path = '/home/rstudio/R/Shiny/accident_all.csv')

但是,当我尝试执行此代码时,收到以下错误:

  

as.hexmode(xx)出错:'x'无法强制转换为类“hexmode”

通过Google搜索错误我找不到多少。任何人都可以了解这里发生的事情吗?

1 个答案:

答案 0 :(得分:3)

是的,可以使用.csv在Spark数据框中轻松读取本地spark_read_csv()文件。我在Documents目录中有一个.csv文件,我使用以下代码片段阅读它。我没有必要使用file://前缀。以下是摘录:

Sys.setenv(SPARK_HOME = "C:/Spark/spark-2.0.1-bin-hadoop2.7/")
library(SparkR, lib.loc = "C:/Spark/spark-2.0.1-bin-hadoop2.7/R/lib")
library(sparklyr)
library(dplyr)
library(data.table)
library(dtplyr)

sc <- spark_connect(master = "local", spark_home = "C:/Spark/spark-2.0.1-bin-hadoop2.7/", version = "2.0.1")

Credit_tbl <- spark_read_csv(sc, name = "credit_data", path = "C:/Users/USER_NAME/Documents/Credit.csv", header = TRUE, delimiter = ",")

您只需调用对象名Credit_tbl即可查看数据框。 enter image description here