我正在尝试使用来自API的数据更新Pandas Dataframe,并将其写入.csv,我需要确保它不包含重复的行。
我一直在这里检查可能是什么问题(例如,忘记添加inplace = True),但这似乎并非如此。
所以...我让大熊猫读了csv
df = pd.read_csv(file)
然后,我从API下载更多数据(我确保我有重复的行)并创建df2(csv由相同的代码编写,因此我确信重复的行是完全相同的)。 现在,我需要将一个数据框附加到另一个,然后删除重复项:
df = df.append(df2, ignore_index=True)
df.drop_duplicates(subset=None, keep='first', inplace=True)
然后我尝试
df = df.drop_duplicates()
我希望不会看到两者都有任何重复的行,但是我必须丢失一些东西,因为那些东西仍然存在,我不知道为什么。 我确实检查了其他人的问题是否正在解决此问题,但是我注意到问题通常是缺少inplace = True部分...我没有。
答案 0 :(得分:1)
这是您需要的吗?
df.drop_duplicates(keep=False)