如何减少大数据集的文件大小

时间:2018-07-17 06:33:42

标签: python python-3.x

我是python的新手,正在处理尺寸为20000x20000的矩阵。现在,我需要以集合{i,j,value}的形式将矩阵的元素存储在文件中,每行一组。我尝试通过将每个集合转换为字符串将所有文件元素存储到文本文件中的“ file.write”功能,但是通过执行此文件操作,该文件大小已变为6GB左右。 我想知道有什么方法可以减小文件大小或集合大小,从而可以减小整体大小吗?

1 个答案:

答案 0 :(得分:0)

您可以尝试压缩文件。来自the docs

gzip压缩示例
import gzip
content = b"Lots of content here"
with gzip.open('/home/joe/file.txt.gz', 'wb') as f:
    f.write(content)