我有1194行和14.000.000列的巨大数据框。我需要每列的总和,并且仅保存列名和总和(如果总和大于1)。当我尝试在文本文件(其大小为+ 30gb)中加载时,进程被杀死。文本文件是制表符修饰的,看起来像这样:
cell 17472131 17472132 17472133..
cell_0 1 0 1
cell_1 0 0 0
cell_2 0 1 1
cell_3 1 0 0
.
.
.
有没有办法像时尚专栏中那样做,所以我不占用太多内存?
答案 0 :(得分:1)
pandas.read_csv()
具有参数skiprows
和nrows
来读取特定的行块。 function manual here
我建议设置一个总和数组(大小为14mln),然后有一个循环一次读取几行,更新总和,然后查找接下来的几行。