我正在寻找大规模(数千或数亿条数据记录)resample
time series
数据的解决方案。 Pandas
resample()
运行良好,直到达到大约10 mio数据记录,之后它实际上停止工作,因为硬件没有足够的内存。我和Pandas在巨大的数据集上多次遇到过这个问题。但是,如果我只是在巨大的数据集上使用for循环,我可以读取数据并使用它,即使速度慢得多。没有resample time series data
,有没有人知道pandas
的良好解决方案?
数据源是MySQL服务器,记录包含OHLC数据和时间戳。时间序列的频率是1分钟,重采样频率是5分钟,30分钟,1小时,6小时,1天,1小时,1米,我都存储在不同的表格中。我考虑将来切换到mongoDB。
答案 0 :(得分:1)
看看这个: Pandas Panel resampling alternatives
与此同时,该程序包称为xarray。尽管您可以检查一下dask,但它可以与xarray一起提供快速,并行的重采样(以及许多其他numpy和pandas函数)。