我正在读取一个较大的csv文件(超过10GB)。从csv加载的原始数据如下:
SYMBOL DATE TIME PRICE CORR COND
0 BA 20090501 9:29:46 40.24 0 F
1 BA 20090501 9:29:59 40.38 0 F
2 BA 20090501 9:30:01 40.31 0 O
3 BA 20090501 9:30:01 40.31 0 Q
4 BA 20090501 9:30:08 40.38 0 F
我的目标是在通过read_csv函数读取日期时将DATE和TIME列合并为一个DATE_TIME列。
由于内存限制,不能先加载数据然后手动进行。
当前,我正在使用
data = pd.read_csv('200905.csv',
parse_dates=[['DATE','TIME']],
infer_datetime_format=True,
)
但是,使用上面的默认dateutil.parser.parser
会使加载时间增加4倍,而不是仅加载原始csv。
一种有前途的方法可以在以下方面使用查找方法: Pandas: slow date conversion。这是因为我的数据集有很多重复的日期。
但是,我的问题是,如何在合并到DATE_TIME列(可能只有很少的重复条目)的同时,最佳地利用DATE列的重复结构。