我正在尝试使用drop_duplicates(subset = [''],keep = False)在数据框中删除重复项。显然,在我的Jupyter Notebook中它可以正常工作,但是当我尝试通过终端作为.py文件执行时,出现以下错误:
CMakeLists.txt
检查了熊猫的版本是否为> 0.18,因为随后引入了keep = false。
libncnn.a
我要删除两个被删除的记录。因此,keep = false是必要的。
如果我删除keep = false,它就可以正常工作。
答案 0 :(得分:0)
可能您的对象不是本机pandas数据框,而是pyspark数据框。 从这个http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.DataFrame.drop_duplicates看来,子集仅是参数接受的。您可以添加导入和创建数据框的行吗?