dropDuplicates in SparkR

时间:2016-05-02 04:53:32

标签: apache-spark sparkr

SparkR是否包含dropDuplicates函数(删除基于特定列的重复行)?scala中存在这些函数?

我在SOF中遇到了这个answer。但是我们没有使用GroupBy,而是在SparkR中使用dropDuplicates函数吗?

1 个答案:

答案 0 :(得分:1)

按所有列进行操作,它是distinct

distinct(x)

unique(x)

要做到“基于特定的列”,如你所说,你最好的选择是GroupBy,因为火花无法决定你要保留哪一个“不同的”记录。