pandas - 从大型csv文件计算中值/百分位数

时间:2018-03-27 05:25:07

标签: python pandas

我有一个大的csv文件,数百万行。所以我使用chunksize来读取它们以保存内存。

我可以计算col bytes_alloc的总和,如下所示。

tf = pd.read_csv("../Samples/analytics/trace.csv", chunksize=1024*25)

tot_mem_usage = 0
for tf in df:
  tot_mem_usage += df.sum()["bytes_alloc"]

如何计算多个块的中位数或其他百分位数?

1 个答案:

答案 0 :(得分:0)

如果您只想对mean进行计算,可以查看makefiles

你几乎没有阅读时间(见Blaze (Pandas interface to Big Data)讲话):

PyData

和Blaze在DataFrame上支持.mean()之类的简单操作:

Read Time of a 10GB csv file