查看两个SparkR列中的值匹配的数量

时间:2017-06-07 15:40:19

标签: apache-spark sparkr

我在名为x1的{​​{1}} x2中有两个整数列(SparkRDataFrame),彼此非常相似。我想知道有多少值匹配,并将其与列的总长度进行比较。我怎样才能做到这一点?我尝试过以下两种情况,都会导致错误。

df

2 个答案:

答案 0 :(得分:1)

您可以使用withColumn生成新列,填充x1x2列相等的值。

您可以使用countcount新列中的值。

答案 1 :(得分:0)

具体来说,这里是答案的代码:

df <- withColumn(df, 'x', df$x1==df$x2)
head(agg(groupBy(df, 'x'), x="count"))