列dtype对to_csv()的性能有多少影响?

时间:2019-10-30 13:49:42

标签: python pandas performance

我有一个约1140万行和140列的数据框。在尝试输出到gzip压缩的CSV(至少现在至少确实需要为CSV)的过程中,我的磁盘写入速度异常缓慢,大约为50 kbps。将这个特定的数据帧写入磁盘需要7个小时5分钟,这是站不住脚的。列的dtype会导致这种变慢吗?也许我的硬盘刚刚出现故障?我倾向于认为这是一个I / O瓶颈,因此我的数据框的构成没有多大关系,对吗?

我已经将其他类似的数据集写入磁盘(相同的列,采样的不同时间段),它的速度不如我想要的快,但不是我用最新数据看到的速度慢。

如果重要的dtype是:

In [5]: Counter(df.dtypes.tolist()).most_common()
Out[5]: [(dtype('float64'), 90), (dtype('O'), 42), (dtype('int64'), 8)]

0 个答案:

没有答案