如何使用SparkR的as.DataFrame()将大型R data.frames加载到Spark中?

时间:2016-09-19 02:06:55

标签: r hadoop apache-spark sparkr

我的目标是将大型R data.frame加载到Spark中。 data.frame的大小是5密耳。行和各种类型的7列。一旦加载到R中,此data.frame占用大约。 200mb的内存。但是,当我尝试使用as.DataFrame()函数将其加载到Spark时,R会话将永远占用,它已运行1小时,我不得不取消操作。

以下是详细信息:

我正在创建以下数据集以在此示例中使用:

n=5e6 # set sample size

d <- data.frame(
    v1=base::sample(1:9,n,replace=TRUE), 
    v2=base::sample(1000:9000,n,replace=TRUE), 
    v3=seq(as.Date("2016-01-01"), as.Date("2016-12-31"), by = "day")[base::sample(1:365,n,replace=TRUE)],
    v4=LETTERS[base::sample(1:length(LETTERS),n,replace=TRUE)], 
    v5=base::sample(1000:9000,n,replace=TRUE)/1000, 
    v6=seq(ISOdate(2016,1,1), ISOdate(2018,1,1), "sec")[base::sample(1:63158401,n,replace=TRUE)],
    v7=c(TRUE,FALSE)[base::sample(1:2,n,replace=TRUE)]
)

以上创建了一个示例data.frame

尺寸,约200mb:

paste0("size: ", round(as.numeric(object.size(d))/1000000,1)," mb")

接下来,我创建一个Spark会话:

Sys.setenv(SPARK_HOME='C:\\soft\\spark-2.0.0-bin-hadoop2.7',HADOOP_HOME='C:\\soft\\hadoop')
.libPaths(c(file.path(Sys.getenv('SPARK_HOME'), 'R', 'lib'),.libPaths()))
Sys.setenv('SPARKR_SUBMIT_ARGS'='"sparkr-shell"')

library(SparkR)
library(rJava)
sparkR.session(enableHiveSupport = FALSE,master = "local[*]", sparkConfig = list(spark.driver.memory = "1g",spark.sql.warehouse.dir="C:\\soft\\hadoop\\bin"))

现在,我正在尝试将上面创建的data.frame加载到Spark:

d_sd <- as.DataFrame(d)

以上命令需要永远运行。

我有什么不对劲吗? 它可以与原始R data.frame中的列的class()相关吗? 我应该采用另一种方法将大型数据集从R加载到Spark吗?如果是,请随时提出建议。

提前谢谢。

PS:

我可以使用此方法在Spark中快速转换和操作小数据集。

以下是我正在运行的R会话和操作系统的一些背景信息:

R版本3.2.5(2016-04-14) 平台:x86_64-w64-mingw32 / x64(64位) 运行于:Windows 7 x64(内部版本7601)Service Pack 1

我在Windows 7 Professional(64位),8 GB RAM下运行Microsoft版本的R(Revolution)。处理器:i5-2520M @ 2.50GHz

编辑2016-09-19:

谢谢你,Zeydy Ortiz和Mohit Bansal。根据你的答案,我尝试了以下内容,但我仍面临同样的问题:

Sys.setenv(SPARK_HOME='C:\\soft\\spark-2.0.0-bin-hadoop2.7',HADOOP_HOME='C:\\soft\\hadoop')
.libPaths(c(file.path(Sys.getenv('SPARK_HOME'), 'R', 'lib'),.libPaths()))
Sys.setenv('SPARKR_SUBMIT_ARGS'='"sparkr-shell"')

library(SparkR)
library(rJava)
sparkR.session(enableHiveSupport = FALSE,master = "local[*]", sparkConfig = list(spark.driver.memory = "1g",spark.sql.warehouse.dir="C:\\soft\\hadoop\\bin"))


n=5e6 # set sample size

d_sd <- createDataFrame(sqlContext,data=data.frame(
        v1=base::sample(1:9,n,replace=TRUE), 
        v2=base::sample(1000:9000,n,replace=TRUE), 
        v3=seq(as.Date("2016-01-01"), as.Date("2016-12-31"), by = "day")[base::sample(1:365,n,replace=TRUE)],
        v4=LETTERS[base::sample(1:length(LETTERS),n,replace=TRUE)], 
        v5=base::sample(1000:9000,n,replace=TRUE)/1000, 
        v6=seq(ISOdate(2016,1,1), ISOdate(2018,1,1), "sec")[base::sample(1:63158401,n,replace=TRUE)],
        v7=c(TRUE,FALSE)[base::sample(1:2,n,replace=TRUE)]
    ))

将R df转换为Spark df的命令运行了几个小时。不得不取消。请协助。

编辑2016-12-14:

使用Spark 1.6.1和R 3.2.0尝试上述操作。我最近使用Spark 2.0.2(最新版)和R 3.2.5尝试了这个,我遇到了同样的问题。

非常感谢任何帮助。

2 个答案:

答案 0 :(得分:2)

这与内存限制有关,为什么必须先创建Base Dataframe并将其转换为Spark DataFrame?

您可以将这两个步骤合并为一个并获得结果:

Sys.setenv(SPARK_HOME='C:\\soft\\spark-2.0.0-bin-hadoop2.7',HADOOP_HOME='C:\\soft\\hadoop')
.libPaths(c(file.path(Sys.getenv('SPARK_HOME'), 'R', 'lib'),.libPaths()))
Sys.setenv('SPARKR_SUBMIT_ARGS'='"sparkr-shell"')

library(SparkR)
library(rJava)
sparkR.session(enableHiveSupport = FALSE,master = "local[*]", sparkConfig = list(spark.driver.memory = "1g",spark.sql.warehouse.dir="C:\\soft\\hadoop\\bin"))

然后你可以加载你的SDF:

n=5e6 # set sample size

d_sd <- as.DataFrame(data.frame(
    v1=base::sample(1:9,n,replace=TRUE), 
    v2=base::sample(1000:9000,n,replace=TRUE), 
    v3=seq(as.Date("2016-01-01"), as.Date("2016-12-31"), by = "day")[base::sample(1:365,n,replace=TRUE)],
    v4=LETTERS[base::sample(1:length(LETTERS),n,replace=TRUE)], 
    v5=base::sample(1000:9000,n,replace=TRUE)/1000, 
    v6=seq(ISOdate(2016,1,1), ISOdate(2018,1,1), "sec")[base::sample(1:63158401,n,replace=TRUE)],
    v7=c(TRUE,FALSE)[base::sample(1:2,n,replace=TRUE)]
))

您还可以参考类似的问题:How best to handle converting a large local data frame to a SparkR data frame?

答案 1 :(得分:0)

在Spark 2.0.0中,使用createDataFrame(d)