使用大型数据集Jupyter Notebook拟合模型时,内核不断消亡

时间:2019-12-01 17:07:49

标签: python pandas jupyter-notebook bigdata data-science

我有6000万行和10列的数据集。 我已经进行了一些预选剪切,转换了数据类型等等,以将我的数据集保存到pandas DataFrame中,并且需要2GB的内存。

然后,当我尝试在数据上拟合模型时,可以说逻辑回归,随机森林或使用xgboost cv函数,内核会死掉并重新启动。

我一直在关注内存消耗,删除了旧的不需要的数据帧,列表,...

我不得不提到,我正在使用具有16 GB RAM的虚拟机,在这里我可以通过jupyter笔记本进程查看内存使用情况。我注意到,当我的进程消耗的内存超过16GB时,它们就会被服务器杀死。
另外,如果我在具有8GB RAM的笔记本电脑上运行相同的代码,我的内核也会死掉。
我的问题是,
如何限制sklearn方法或任何其他方法的内存使用?

1 个答案:

答案 0 :(得分:0)

在云中使用Jupyter笔记本 像GCP,AWS,Azure

例如,在GCP中,您可以拥有4TB的RAM,新用户可以获得300美元的免费信用额

由于有GPU,我在云(GCP)中使用