如何在Spark 1.4的SparkR中绑定两列数据框
TIA,Arun
答案 0 :(得分:5)
没有办法做到这一点。这是关于scala中spark(1.3)的问题。能够做到这一点的唯一方法是使用某种row.numbering,因为那时你可以加入row.number。为什么?因为您只能根据其他现有列连接表或添加列
data1 <- createDataFrame(sqlContext, data.frame(a=c(1,2,3)))
data2 <- createDataFrame(sqlContext, data.frame(b=c(2,3,4)))
然后
withColumn(data1,"b",data1$a + 1)
是允许的,但是
withColumn(data1,"b",data2$b)
不是。从Spark切断你的DataFrame以存储它的那一刻起,它就不知道如何绑定它们(它不知道行排序),只有当你有row.numbers时才会这样。