我有几个带有数据的大文本文件(每个~1Gbyte),如下所示:
name name name name
value - value value
value value value value
value - - value
通过numpy.genfromtxt
读取文本文件。我的问题是它真的很慢。问题不在于文件输入本身(我用mmap
将其映射到内存中,这在~2秒内完成,但之后用genfromtxt
处理的速度非常慢。我能做些什么来加速这个我考虑过将数据拆分成几个较小的部分来并行化进程,但为此我必须首先读取文件,完全处理它,然后在每个块上运行genfromtxt
。有更快的方法吗?