运行dask计算时,jupyter笔记本内核死亡

时间:2019-02-22 08:47:19

标签: python-3.x pandas dask

我有一个很大的csv文件(〜25GB),长度为8529090,当我尝试运行以下内核时,该文件消失了。在具有16GB RAM的MacBook Pro上运行。

import dask.dataframe as dd

ddf = dd.read_csv('data/cleaned_news_data.csv')
ddf = ddf[(ddf.type != 'none')].compute()

有什么想法可以解决吗?

感谢您的帮助。

1 个答案:

答案 0 :(得分:0)

如上所述,调用compute将结果转换为内存中对象,因此,如果结果不适合内存,则表示您不走运。

人们通常会计算较小的结果(例如,绘图的输入),或者将很大的结果写入磁盘。