多列快速datetime解析,read_csv

时间:2019-06-11 14:36:43

标签: python pandas datetime

我正在读取一个较大的csv文件(超过10GB)。从csv加载的原始数据如下:

  SYMBOL      DATE     TIME  PRICE  CORR COND
0     BA  20090501  9:29:46  40.24     0    F
1     BA  20090501  9:29:59  40.38     0    F
2     BA  20090501  9:30:01  40.31     0    O
3     BA  20090501  9:30:01  40.31     0    Q
4     BA  20090501  9:30:08  40.38     0    F

我的目标是在通过read_csv函数读取日期时将DATE和TIME列合并为一个DATE_TIME列。

由于内存限制,不能先加载数据然后手动进行。

当前,我正在使用

data = pd.read_csv('200905.csv',
                    parse_dates=[['DATE','TIME']], 
                    infer_datetime_format=True,
                  )

但是,使用上面的默认dateutil.parser.parser会使加载时间增加4倍,而不是仅加载原始csv。

一种有前途的方法可以在以下方面使用查找方法: Pandas: slow date conversion。这是因为我的数据集有很多重复的日期。

但是,我的问题是,如何在合并到DATE_TIME列(可能只有很少的重复条目)的同时,最佳地利用DATE列的重复结构。

0 个答案:

没有答案