Python:来自多个统计文件的统计信息摘要

时间:2016-12-12 14:12:26

标签: python pandas

我有大约140,000,000条记录的数据集,我已将其存储在数据库中。我需要使用python计算这些数据的基本统计数据,如均值,最大值,最小值,标准差。

但是,当我这样做时,使用类似"选择*来自Mytable订单的ID限制%d偏移%d" %(chunksize,offset),执行需要一个多小时才能执行。参考How to create a large pandas dataframe from an sql query without running out of memory?

由于需要更多时间,现在我决定只读取少量记录并将使用pandas.describe()获得的统计信息保存到csv中。同样,对于整个数据,我将有多个仅包含统计信息的csv。

有没有办法合并这些csv以获得140,000,000的整个数据的整体统计数据?

2 个答案:

答案 0 :(得分:0)

在这种情况下(计算平均值,最大值,最小值,标准差,用于分析不同文件中的大数据集),您可以计算所需的内容(平均值,最大值等),仅保留结果,然后打开第二个文件,并计算(平均值,最大值等)从您的第一个文件等帐户结果...

答案 1 :(得分:0)

您尝试过泡菜吗?以pickle格式保存和加载,并使用pandas数据框计算摘要统计信息。

https://www.codeigniter.com/userguide3/libraries/form_validation.html

如果这不起作用,那么也许重新访问一下为什么需要捕获这么大的数据集并按类别,时间段或更有意义的细分进行分类的目标。