SparkR Cartesian连接导致错误 - 尝试获取日期序列

时间:2016-09-08 21:48:33

标签: r join sequence sparkr cartesian

有没有人成功地在sparkR DataFrame和从R data.frame转换的DataFrame之间进行笛卡尔连接?

我有一个sparkR DataFrame(spark_df),我是从外部来源引入的 - 我道歉,我不知道如何提供一个可重现的例子,让数据已经存在于spark中但之前没有从R转换过。我创建了测试R数据框只有一个条目并将其转换为Spark数据框然后尝试加入:

test_df = data.frame(month_dates = '2015-11-01') t_dates = createDataFrame(sql, test_df) lpd = join(spark_df, t_dates) showDF(lpd)

作为回复,我收到了一系列错误消息,结尾于:

16/09/08 20:46:02 ERROR RBackendHandler: showString on 3363 failed
Error in invokeJava(isStatic = FALSE, objId$id, methodName, ...) : 
  org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 1643.0 failed 4 times, most recent failure: Lost task 0.3 in stage 1643.0 (TID 17015, prod-mesos-s-6.aws.company.com): org.apache.spark.SparkException: R computation failed with
 7f5a022f3000-7f5a022f4000 rw-p 0182a000 ca:01 16926                      /usr/lib64/libicudata.so.54.1
7f5a022f4000-7f5a0231a000 r-xp 00000000 ca:01 4839                       /usr/lib64/libtinfo.so.5.9
7f5a0231a000-7f5a02519000 ---p 00026000 ca:01 4839                       /usr/lib64/libtinfo.so.5.9
7f5a02519000-7f5a0251d000 r--p 00025000 ca:01 4839                       /usr/lib64/libtinfo.so.5.9
7f5a0251d000-7f5a0251e000 rw-p 00029000 ca:01 4839                       /usr/lib64/libtinfo.so.5.9
7f5a0251e000-7f5a02534000 r-xp 00000000 ca:01 11293                      /usr/lib64/libgcc_s-5.3.1-20160406.so.1
7f5a02534000-7f5a02733000 ---p 00016000 ca:01 11293                      /usr/lib64/libgcc_s-5.3.1-20160

我的最终目标是给定开始日期和结束日期的一系列日期,以便我可以填写t日期中的缺失日期。我无法找到一种在SparkR中执行序列的方法,这就是为什么我在R中进行并转换为SparkR DataFrame的原因 - 如果有更好的方法使用SparkR完全避免data.frames,那将是rad 。

如果有人知道如何解决这个问题,那也是rad。

会话信息:

R version 3.3.0 (2016-05-03)
Platform: x86_64-redhat-linux-gnu (64-bit)
Running under: Fedora 22 (Twenty Two)    

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] SparkR_1.6.1    lubridate_1.5.6 zoo_1.7-12      dplyr_0.4.3    

loaded via a namespace (and not attached):
 [1] lazyeval_0.2.0  magrittr_1.5    R6_2.1.2        assertthat_0.1 
 [5] parallel_3.3.0  tools_3.3.0     DBI_0.4-1       Rcpp_0.12.7    
 [9] stringi_1.1.1   grid_3.3.0      stringr_1.0.0   lattice_0.20-33

0 个答案:

没有答案