标签: python pyspark
具有一个包含重复项的数据框。我确实要删除它们,但是请确保没有保留它们的副本,因此都从pyspark数据框中删除了这两个副本。 pyspark内有解决方案吗?
我已经尝试过熊猫函数df.dropDuplicates(df,keep = False), 但出现以下错误:dropDuplicates()收到了意外的关键字参数'keep'
谢谢