应用错误收集

删除重复项，不要保留副本

时间：2019-07-22 13:35:26

标签： python pyspark

具有一个包含重复项的数据框。我确实要删除它们，但是请确保没有保留它们的副本，因此都从pyspark数据框中删除了这两个副本。 pyspark内有解决方案吗？

我已经尝试过熊猫函数df.dropDuplicates（df，keep = False），但出现以下错误：dropDuplicates（）收到了意外的关键字参数'keep'

谢谢

0 个答案:

没有答案