python - Python：来自多个统计文件的统计信息摘要

时间：2016-12-12 14:12:26

标签： python pandas

我有大约140,000,000条记录的数据集，我已将其存储在数据库中。我需要使用python计算这些数据的基本统计数据，如均值，最大值，最小值，标准差。

但是，当我这样做时，使用类似＆＃34;选择*来自Mytable订单的ID限制％d偏移％d＆＃34; ％（chunksize，offset），执行需要一个多小时才能执行。参考How to create a large pandas dataframe from an sql query without running out of memory?

由于需要更多时间，现在我决定只读取少量记录并将使用pandas.describe（）获得的统计信息保存到csv中。同样，对于整个数据，我将有多个仅包含统计信息的csv。

有没有办法合并这些csv以获得140,000,000的整个数据的整体统计数据？

答案 0 :(得分：0)

在这种情况下（计算平均值，最大值，最小值，标准差，用于分析不同文件中的大数据集），您可以计算所需的内容（平均值，最大值等），仅保留结果，然后打开第二个文件，并计算（平均值，最大值等）从您的第一个文件等帐户结果...

答案 1 :(得分：0)

您尝试过泡菜吗？以pickle格式保存和加载，并使用pandas数据框计算摘要统计信息。

如果这不起作用，那么也许重新访问一下为什么需要捕获这么大的数据集并按类别，时间段或更有意义的细分进行分类的目标。