熊猫重拍的替代方案

时间:2018-02-04 14:43:35

标签: pandas for-loop time-series resampling

我正在寻找大规模(数千或数亿条数据记录)resample time series数据的解决方案。 Pandas resample()运行良好,直到达到大约10 mio数据记录,之后它实际上停止工作,因为硬件没有足够的内存。我和Pandas在巨大的数据集上多次遇到过这个问题。但是,如果我只是在巨大的数据集上使用for循环,我可以读取数据并使用它,即使速度慢得多。没有resample time series data,有没有人知道pandas的良好解决方案?

数据源是MySQL服务器,记录包含OHLC数据和时间戳。时间序列的频率是1分钟,重采样频率是5分钟,30分钟,1小时,6小时,1天,1小时,1米,我都存储在不同的表格中。我考虑将来切换到mongoDB。

1 个答案:

答案 0 :(得分:1)

看看这个: Pandas Panel resampling alternatives

与此同时,该程序包称为xarray。尽管您可以检查一下dask,但它可以与xarray一起提供快速,并行的重采样(以及许多其他numpy和pandas函数)。