在csv中存储numpy数组会大大增加文件大小

时间:2015-07-07 19:02:25

标签: python csv numpy data-analysis

我有两个csv格式的文件。我正在对它们进行数据分析。我使用file1.csvarray1加载到名为numpy.genfromtxt()的numpy数组中,将另一个文件加载到numpy数组'array2'中。

Size of file1: 80 
Size of file2: 10 MB

然后我将整个数据合并为一个numpy数组。从数据中删除一些列后,我使用numpy.savetxt()将该numpy数组输出到csv文件中,但输出文件大小为700 MB

为什么会这样,我该如何解决?

1 个答案:

答案 0 :(得分:1)

您需要将fmt参数传递给numpy.savetxt()以指定用于数字的格式。默认格式"%.18e"导致填充尾随零的24个字符长的科学记数法格式。如果您知道您的dtype是int32,则可以使用不填充的其他格式,例如普通"%d"