熊猫-逐列处理大文件

时间:2020-08-04 18:23:33

标签: python pandas

我有1194行和14.000.000列的巨大数据框。我需要每列的总和,并且仅保存列名和总和(如果总和大于1)。当我尝试在文本文件(其大小为+ 30gb)中加载时,进程被杀死。文本文件是制表符修饰的,看起来像这样:

cell 17472131 17472132 17472133..
cell_0 1 0 1
cell_1 0 0 0
cell_2 0 1 1
cell_3 1 0 0
.
.
.

有没有办法像时尚专栏中那样做,所以我不占用太多内存?

1 个答案:

答案 0 :(得分:1)

pandas.read_csv()具有参数skiprowsnrows来读取特定的行块。 function manual here

我建议设置一个总和数组(大小为14mln),然后有一个循环一次读取几行,更新总和,然后查找接下来的几行。