Question

我正在尝试使用来自API的数据更新Pandas Dataframe，并将其写入.csv，我需要确保它不包含重复的行。

我一直在这里检查可能是什么问题（例如，忘记添加inplace = True），但这似乎并非如此。

所以...我让大熊猫读了csv

df = pd.read_csv(file)

然后，我从API下载更多数据（我确保我有重复的行）并创建df2（csv由相同的代码编写，因此我确信重复的行是完全相同的）。现在，我需要将一个数据框附加到另一个，然后删除重复项：

df = df.append(df2, ignore_index=True)
df.drop_duplicates(subset=None, keep='first', inplace=True)

然后我尝试

df = df.drop_duplicates()

我希望不会看到两者都有任何重复的行，但是我必须丢失一些东西，因为那些东西仍然存在，我不知道为什么。我确实检查了其他人的问题是否正在解决此问题，但是我注意到问题通常是缺少inplace = True部分...我没有。

Answer 1

这是您需要的吗？

df.drop_duplicates(keep=False)