我需要训练3个相当大的文件(67gb,36gb,30gb)。但是,要素是行,样本是列。由于Dask尚未实现转置并存储按行拆分的DataFrame,因此我需要自己编写一些内容。有没有一种方法可以有效转置而不加载到内存中?
我已经可以使用16 gb的ram,并且正在使用jupyter笔记本。我已经写了一些相当慢的代码,但是真的希望有一个更快的解决方案。以下代码的速度将花费一个月的时间来完成所有文件。 awk是最慢的几个数量级。
import dask.dataframe as dd
import subprocess
from IPython.display import clear_output
df = dd.read_csv('~/VeryLarge.tsv')
with open('output.csv','wb') as fout:
for i in range(1, len(df.columns)+1):
print('AWKing')
#read a column from the original data and store it elsewhere
x = "awk '{print $"+str(i)+"}' ~/VeryLarge.tsv > ~/file.temp"
subprocess.check_call([x], shell=True)
print('Reading')
#load and transpose the column
col = pd.read_csv('~/file.temp')
row = col.T
display(row)
print('Deleting')
#remove the temporary file created
!rm ../file.temp
print('Storing')
#store the row in its own csv just to be safe. not entirely necessary
row.to_csv('~/columns/col_{:09d}'.format(i), header=False)
print('Appending')
#append the row (transposed column) to the new file
with open('~/columns/col_{:09d}', 'rb') as fin:
for line in fin:
fout.write(line)
clear_output()
#Just a measure of progress
print(i/len(df.columns))
数据本身是1000万行(特征)和2000列(样本)。它只需要移调。当前,它看起来像这样:documentation
答案 0 :(得分:0)
我将创建一个中间文件,然后使用fp.seek以新顺序以二进制格式写入它们,然后再将其转换回新的CSV。 给定行,列变成列,行-sys.float_info将为您提供每个元素的大小,每个元素的位置((是列* old_row_length +行)*浮点数)。
然后,您可以将它们重新转换为文本,然后每行读取old_count_rows,从而将它们重新组合为CSV。
答案 1 :(得分:0)
我已经修改了原始脚本以部署在任意数量的cpus上。因为我可以使用多个线程并部署在aws上,所以它的工作速度更快。我使用了一台96核机器,该机器在大约8小时内完成了任务。我很惊讶,因为这几乎是线性缩放!这个想法是使一些重复的任务可分配。然后,您将能够将任务分配给cpus。这里,并行化是通过命令pool.map()
完成的。
从命令行使用此脚本非常简单:
python3 transposer.py -i largeFile.tsv
如果需要,您还可以指定其他参数。
import argparse, subprocess
import numpy as np
import pandas as pd
import dask.dataframe as dd
from IPython.display import clear_output
from contextlib import closing
from os import cpu_count
from multiprocessing import Pool
parser = argparse.ArgumentParser(description='Transpose csv')
parser.add_argument('-i', '--infile', help='Path to input folder',
default=None)
parser.add_argument('-s', '--sep', help='input separator',
default='\t')
args = parser.parse_args()
infile = args.infile
sep = args.sep
df = pd.read_csv(infile, sep='\t', nrows=3)
def READ_COL(item):
print(item)
outfile = 'outfile{}.temp'.format(item)
if item !=0:
x = "awk '{print $"+str(item)+"}' "+infile+" > "+outfile
subprocess.check_call([x], shell=True)
col = pd.read_csv(outfile)
row = col.T
display(row)
row.to_csv('col_{:09d}.csv'.format(item), header=False)
subprocess.check_call(['rm '+outfile], shell=True)
print(item/len(df.columns))
with closing(Pool(processes=cpu_count())) as pool:
pool.map(READ_COL, list(range(1, len(df.columns)+1)))