标签: apache-spark sparkr
SparkR是否包含dropDuplicates函数(删除基于特定列的重复行)?scala中存在这些函数?
我在SOF中遇到了这个answer。但是我们没有使用GroupBy,而是在SparkR中使用dropDuplicates函数吗?
答案 0 :(得分:1)
按所有列进行操作,它是distinct
distinct(x)
或
unique(x)
要做到“基于特定的列”,如你所说,你最好的选择是GroupBy,因为火花无法决定你要保留哪一个“不同的”记录。