在使用drop_duplicates()删除重复项之后,仍然存在一些重复项

时间:2019-05-12 18:10:44

标签: python pandas csv

所以我有一个大型的csv,大约2400万行,其中包含一些服务器信息。

因此,由于文件很大,而且我无法将其加载到DataFrame中,因此将其分解为多个块,如下面的代码所示:

chunksize = 10**6
for chunk in pd.read_csv('input.csv', chunksize=chunksize):
    df = pd.DataFrame(chunk[['ip', 'cik']])
    df = df.drop_duplicates()
    df = df.to_csv('no_duplicates.csv', mode="a", index = False)

我只需要从该csv中获取两列,即“ ip”和“ cik”,所以我只加载它们,“ cik”代表一个用户,因此我想知道从多少个不同的ip登录,以进行分析

我做了所有这些,这就是我在挣扎:

df = pd.read_csv('no_duplicates.csv')
df = pd.DataFrame(df).groupby('cik').count().to_csv('output.csv')

但是'cik'的总数不是很好,应该是更多,所以没有删除某些重复项。我试图再次过滤掉它(使用drop_duplicates,但是还是一样,再次有一些重复),但是没有任何改进。

这是我的逻辑不好,还是因为输入错误。

任何建议都会有所帮助。

0 个答案:

没有答案