有没有人成功地在sparkR DataFrame和从R data.frame转换的DataFrame之间进行笛卡尔连接?
我有一个sparkR DataFrame(spark_df),我是从外部来源引入的 - 我道歉,我不知道如何提供一个可重现的例子,让数据已经存在于spark中但之前没有从R转换过。我创建了测试R数据框只有一个条目并将其转换为Spark数据框然后尝试加入:
test_df = data.frame(month_dates = '2015-11-01')
t_dates = createDataFrame(sql, test_df)
lpd = join(spark_df, t_dates)
showDF(lpd)
作为回复,我收到了一系列错误消息,结尾于:
16/09/08 20:46:02 ERROR RBackendHandler: showString on 3363 failed
Error in invokeJava(isStatic = FALSE, objId$id, methodName, ...) :
org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 1643.0 failed 4 times, most recent failure: Lost task 0.3 in stage 1643.0 (TID 17015, prod-mesos-s-6.aws.company.com): org.apache.spark.SparkException: R computation failed with
7f5a022f3000-7f5a022f4000 rw-p 0182a000 ca:01 16926 /usr/lib64/libicudata.so.54.1
7f5a022f4000-7f5a0231a000 r-xp 00000000 ca:01 4839 /usr/lib64/libtinfo.so.5.9
7f5a0231a000-7f5a02519000 ---p 00026000 ca:01 4839 /usr/lib64/libtinfo.so.5.9
7f5a02519000-7f5a0251d000 r--p 00025000 ca:01 4839 /usr/lib64/libtinfo.so.5.9
7f5a0251d000-7f5a0251e000 rw-p 00029000 ca:01 4839 /usr/lib64/libtinfo.so.5.9
7f5a0251e000-7f5a02534000 r-xp 00000000 ca:01 11293 /usr/lib64/libgcc_s-5.3.1-20160406.so.1
7f5a02534000-7f5a02733000 ---p 00016000 ca:01 11293 /usr/lib64/libgcc_s-5.3.1-20160
我的最终目标是给定开始日期和结束日期的一系列日期,以便我可以填写t日期中的缺失日期。我无法找到一种在SparkR中执行序列的方法,这就是为什么我在R中进行并转换为SparkR DataFrame的原因 - 如果有更好的方法使用SparkR完全避免data.frames,那将是rad 。
如果有人知道如何解决这个问题,那也是rad。
会话信息:
R version 3.3.0 (2016-05-03)
Platform: x86_64-redhat-linux-gnu (64-bit)
Running under: Fedora 22 (Twenty Two)
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] SparkR_1.6.1 lubridate_1.5.6 zoo_1.7-12 dplyr_0.4.3
loaded via a namespace (and not attached):
[1] lazyeval_0.2.0 magrittr_1.5 R6_2.1.2 assertthat_0.1
[5] parallel_3.3.0 tools_3.3.0 DBI_0.4-1 Rcpp_0.12.7
[9] stringi_1.1.1 grid_3.3.0 stringr_1.0.0 lattice_0.20-33