从巨大的压缩文件中逐行读取矩阵

时间:2016-04-08 12:19:48

标签: python numpy io large-files

我想读取大矩阵的行。我不需要随机访问,因此h5py可能有点过分,可能比顺序阅读慢很多。更快的选项是mmap,但根据我的理解,我不能使用压缩文件。

所以我想我只需要从二进制文件中读取块。我该如何准备矩阵?它肯定需要是一个二进制文件(而不是csv),但我想知道我是否可以方便地编写numpy数组?不幸的是,我很确定我不能使用pickle,因为我的矩阵会很大(压缩前大约40GB)。

感谢您的帮助!

0 个答案:

没有答案