简单的问题:我在dask中有一个包含大约300万条记录的数据帧。我需要知道数据帧包含的确切行数。有一个简单的方法吗?
当我尝试运行dataframe.x.count().compute()
时,看起来它试图将整个数据加载到RAM中,因为没有空间而且崩溃。
答案 0 :(得分:0)
# ensure small enough block size for the graph to fit in your memory
ddf = dask.dataframe.read_csv('*.csv', blocksize="10MB")
ddf.shape[0].compute()
答案 1 :(得分:0)
如果只需要行数-
您可以在选择内存使用率较低的列(例如类别/整数而不是字符串/对象)的同时加载列的子集,然后运行len(df.index)