Spark数据帧丢弃重复项

时间:2016-06-02 07:24:06

标签: scala apache-spark dataframe duplicates

是否有可能告诉火花滴副本丢弃第二次而不是第一次?

scala> df.show()
+-----------+
|         _1|
+-----------+
|1 2 3 4 5 6|
|9 4 5 8 7 7|
|1 2 3 4 5 6|
+-----------+


scala> val newDf = df.dropDuplicates()
newDf: org.apache.spark.sql.DataFrame = [_1: string]

scala> newDf.show()
+-----------+                                                                   
|         _1|
+-----------+
|9 4 5 8 7 7|
|1 2 3 4 5 6|
+-----------+

1 个答案:

答案 0 :(得分:0)

在行上/具有相同值的索引/索引,然后为索引/ rank> 1的所有记录删除条目。