Question

我有一个很大的csv文件（〜25GB），长度为8529090，当我尝试运行以下内核时，该文件消失了。在具有16GB RAM的MacBook Pro上运行。

import dask.dataframe as dd

ddf = dd.read_csv('data/cleaned_news_data.csv')
ddf = ddf[(ddf.type != 'none')].compute()

有什么想法可以解决吗？

感谢您的帮助。

Answer 1

如上所述，调用compute将结果转换为内存中对象，因此，如果结果不适合内存，则表示您不走运。

人们通常会计算较小的结果（例如，绘图的输入），或者将很大的结果写入磁盘。