大熊猫以CSV格式放置重复项

时间:2018-09-20 15:14:25

标签: python-3.x pandas csv

我有两个CSV。它们包含相同的列和数据。一种CSV添加了其他记录。

我想要1个CSV包含新的附加记录,并删除所有重复的记录。

我有:

import pandas as pd

rows = pd.read_csv('/home/test/Documents/rows.csv')
rowsadded = pd.read_csv('/home/test/Documents/rowsadded.csv')

joined = rows.append(rowsadded)
reduce = joined.drop_duplicates(subset=None, keep=False, inplace=False)
reduce.to_csv('/home/test/Documents/results.csv')

当我设置Keep = False时,将删除所有记录,并且仅保留列名。

在我添加了CSV后,有人对删除重复记录有任何建议吗?

更新-如下更改代码,将新行从“ rowsadded” CSV追加到“ rows”:

reduce = joined.drop_duplicates(keep=False, inplace=True)

我在做什么错-我要删除重复项,仅保留新行并将该信息写入新的CSV?

1 个答案:

答案 0 :(得分:1)

一劳永逸

pd.concat([df1,df2]).drop_duplicates(keep=False)