我有一个庞大的csv文件。 2700万行和4列。我需要根据列值之一频繁获取一些行。
目前,我正在这样做。
for chunk in pandas.read_csv('data.csv', chunksize=chunksize):
rows = chunk.loc[chunk['userId'] == 1]
以这种方式获取所需的行需要20秒。我想得到即时结果。
我尝试构建字典并将其保存为泡菜文件,但是,逐行迭代需要花费数小时,并且当达到2100万行时,内存将耗尽。
有什么方法可以获得比20秒更好的结果吗?
谢谢。