Question

所以我有一个大型的csv，大约2400万行，其中包含一些服务器信息。

因此，由于文件很大，而且我无法将其加载到DataFrame中，因此将其分解为多个块，如下面的代码所示：

chunksize = 10**6
for chunk in pd.read_csv('input.csv', chunksize=chunksize):
    df = pd.DataFrame(chunk[['ip', 'cik']])
    df = df.drop_duplicates()
    df = df.to_csv('no_duplicates.csv', mode="a", index = False)

我只需要从该csv中获取两列，即“ ip”和“ cik”，所以我只加载它们，“ cik”代表一个用户，因此我想知道从多少个不同的ip登录，以进行分析

我做了所有这些，这就是我在挣扎：

df = pd.read_csv('no_duplicates.csv')
df = pd.DataFrame(df).groupby('cik').count().to_csv('output.csv')

但是'cik'的总数不是很好，应该是更多，所以没有删除某些重复项。我试图再次过滤掉它（使用drop_duplicates，但是还是一样，再次有一些重复），但是没有任何改进。

这是我的逻辑不好，还是因为输入错误。

任何建议都会有所帮助。

在使用drop_duplicates（）删除重复项之后，仍然存在一些重复项

0 个答案: