应用错误收集

我正在寻找大规模（数千或数亿条数据记录）resample time series数据的解决方案。 Pandas resample()运行良好，直到达到大约10 mio数据记录，之后它实际上停止工作，因为硬件没有足够的内存。我和Pandas在巨大的数据集上多次遇到过这个问题。但是，如果我只是在巨大的数据集上使用for循环，我可以读取数据并使用它，即使速度慢得多。没有resample time series data，有没有人知道pandas的良好解决方案？

数据源是MySQL服务器，记录包含OHLC数据和时间戳。时间序列的频率是1分钟，重采样频率是5分钟，30分钟，1小时，6小时，1天，1小时，1米，我都存储在不同的表格中。我考虑将来切换到mongoDB。

熊猫重拍的替代方案

1 个答案: