是否有可能告诉火花滴副本丢弃第二次而不是第一次?
scala> df.show()
+-----------+
| _1|
+-----------+
|1 2 3 4 5 6|
|9 4 5 8 7 7|
|1 2 3 4 5 6|
+-----------+
scala> val newDf = df.dropDuplicates()
newDf: org.apache.spark.sql.DataFrame = [_1: string]
scala> newDf.show()
+-----------+
| _1|
+-----------+
|9 4 5 8 7 7|
|1 2 3 4 5 6|
+-----------+
答案 0 :(得分:0)
在行上/具有相同值的索引/索引,然后为索引/ rank> 1的所有记录删除条目。