Question

我有一个大的csv文件，数百万行。所以我使用chunksize来读取它们以保存内存。

我可以计算col bytes_alloc的总和，如下所示。

tf = pd.read_csv("../Samples/analytics/trace.csv", chunksize=1024*25)

tot_mem_usage = 0
for tf in df:
  tot_mem_usage += df.sum()["bytes_alloc"]

如何计算多个块的中位数或其他百分位数？

Answer 1

如果您只想对mean进行计算，可以查看makefiles。

你几乎没有阅读时间（见Blaze (Pandas interface to Big Data)讲话）：

和Blaze在DataFrame上支持.mean()之类的简单操作：