我有两个CSV。它们包含相同的列和数据。一种CSV添加了其他记录。
我想要1个CSV包含新的附加记录,并删除所有重复的记录。
我有:
import pandas as pd
rows = pd.read_csv('/home/test/Documents/rows.csv')
rowsadded = pd.read_csv('/home/test/Documents/rowsadded.csv')
joined = rows.append(rowsadded)
reduce = joined.drop_duplicates(subset=None, keep=False, inplace=False)
reduce.to_csv('/home/test/Documents/results.csv')
当我设置Keep = False时,将删除所有记录,并且仅保留列名。
在我添加了CSV后,有人对删除重复记录有任何建议吗?
更新-如下更改代码,将新行从“ rowsadded” CSV追加到“ rows”:
reduce = joined.drop_duplicates(keep=False, inplace=True)
我在做什么错-我要删除重复项,仅保留新行并将该信息写入新的CSV?
答案 0 :(得分:1)
一劳永逸
pd.concat([df1,df2]).drop_duplicates(keep=False)