我有一个大的csv文件,数百万行。所以我使用chunksize
来读取它们以保存内存。
我可以计算col bytes_alloc
的总和,如下所示。
tf = pd.read_csv("../Samples/analytics/trace.csv", chunksize=1024*25)
tot_mem_usage = 0
for tf in df:
tot_mem_usage += df.sum()["bytes_alloc"]
如何计算多个块的中位数或其他百分位数?
答案 0 :(得分:0)
如果您只想对mean
进行计算,可以查看makefiles。
你几乎没有阅读时间(见Blaze (Pandas interface to Big Data)讲话):
和Blaze在DataFrame上支持.mean()
之类的简单操作: