Question

我正在尝试使用drop_duplicates（subset = ['']，keep = False）在数据框中删除重复项。显然，在我的Jupyter Notebook中它可以正常工作，但是当我尝试通过终端作为.py文件执行时，出现以下错误：

CMakeLists.txt

检查了熊猫的版本是否为> 0.18，因为随后引入了keep = false。

libncnn.a

我要删除两个被删除的记录。因此，keep = false是必要的。

如果我删除keep = false，它就可以正常工作。

Answer 1

可能您的对象不是本机pandas数据框，而是pyspark数据框。从这个http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.DataFrame.drop_duplicates看来，子集仅是参数接受的。您可以添加导入和创建数据框的行吗？