Question

我有两个CSV。它们包含相同的列和数据。一种CSV添加了其他记录。

我想要1个CSV包含新的附加记录，并删除所有重复的记录。

我有：

import pandas as pd

rows = pd.read_csv('/home/test/Documents/rows.csv')
rowsadded = pd.read_csv('/home/test/Documents/rowsadded.csv')

joined = rows.append(rowsadded)
reduce = joined.drop_duplicates(subset=None, keep=False, inplace=False)
reduce.to_csv('/home/test/Documents/results.csv')

当我设置Keep = False时，将删除所有记录，并且仅保留列名。

在我添加了CSV后，有人对删除重复记录有任何建议吗？

更新-如下更改代码，将新行从“ rowsadded” CSV追加到“ rows”：

reduce = joined.drop_duplicates(keep=False, inplace=True)

我在做什么错-我要删除重复项，仅保留新行并将该信息写入新的CSV？

Answer 1

一劳永逸

pd.concat([df1,df2]).drop_duplicates(keep=False)

大熊猫以CSV格式放置重复项

1 个答案: