删除重复项,不要保留副本

时间:2019-07-22 13:35:26

标签: python pyspark

具有一个包含重复项的数据框。我确实要删除它们,但是请确保没有保留它们的副本,因此都从pyspark数据框中删除了这两个副本。 pyspark内有解决方案吗?

我已经尝试过熊猫函数df.dropDuplicates(df,keep = False), 但出现以下错误:dropDuplicates()收到了意外的关键字参数'keep'

谢谢

0 个答案:

没有答案