我有一个很大的csv文件(〜25GB),长度为8529090,当我尝试运行以下内核时,该文件消失了。在具有16GB RAM的MacBook Pro上运行。
import dask.dataframe as dd
ddf = dd.read_csv('data/cleaned_news_data.csv')
ddf = ddf[(ddf.type != 'none')].compute()
有什么想法可以解决吗?
感谢您的帮助。
答案 0 :(得分:0)
如上所述,调用compute将结果转换为内存中对象,因此,如果结果不适合内存,则表示您不走运。
人们通常会计算较小的结果(例如,绘图的输入),或者将很大的结果写入磁盘。