如何在sparkR中绑定两个dataframe列?

时间:2015-07-23 13:44:10

标签: apache-spark apache-spark-sql sparkr

如何在Spark 1.4的SparkR中绑定两列数据框

TIA,Arun

1 个答案:

答案 0 :(得分:5)

没有办法做到这一点。这是关于scala中spark(1.3)的问题。能够做到这一点的唯一方法是使用某种row.numbering,因为那时你可以加入row.number。为什么?因为您只能根据其他现有列连接表或添加列

data1 <- createDataFrame(sqlContext, data.frame(a=c(1,2,3)))
data2 <- createDataFrame(sqlContext, data.frame(b=c(2,3,4)))

然后

withColumn(data1,"b",data1$a + 1)

是允许的,但是

withColumn(data1,"b",data2$b)

不是。从Spark切断你的DataFrame以存储它的那一刻起,它就不知道如何绑定它们(它不知道行排序),只有当你有row.numbers时才会这样。