所以我有一个大型的csv,大约2400万行,其中包含一些服务器信息。
因此,由于文件很大,而且我无法将其加载到DataFrame中,因此将其分解为多个块,如下面的代码所示:
chunksize = 10**6
for chunk in pd.read_csv('input.csv', chunksize=chunksize):
df = pd.DataFrame(chunk[['ip', 'cik']])
df = df.drop_duplicates()
df = df.to_csv('no_duplicates.csv', mode="a", index = False)
我只需要从该csv中获取两列,即“ ip”和“ cik”,所以我只加载它们,“ cik”代表一个用户,因此我想知道从多少个不同的ip登录,以进行分析
我做了所有这些,这就是我在挣扎:
df = pd.read_csv('no_duplicates.csv')
df = pd.DataFrame(df).groupby('cik').count().to_csv('output.csv')
但是'cik'的总数不是很好,应该是更多,所以没有删除某些重复项。我试图再次过滤掉它(使用drop_duplicates,但是还是一样,再次有一些重复),但是没有任何改进。
这是我的逻辑不好,还是因为输入错误。
任何建议都会有所帮助。