为大型数据集创建假人时,Datalab内核崩溃

时间:2019-05-28 17:32:56

标签: python-3.x pandas google-bigquery kernel google-cloud-datalab

我正在云数据实验室上运行一个16 cpus / 104 gb内存实例。

当我从大型查询导入具有2000列的数据集并将其转换为数据框时,它的工作原理完全正常。转换过程大约需要90分钟。该文件的大小为3gb,具有200,000行。

下一步,我尝试为数据中的所有分类变量创建虚拟变量。我正在使用pandas的get dummies函数,一旦运行它,数据实验室就会崩溃。

  

“内核似乎已死亡。它将自动重新启动jupyter笔记本”

这是内存问题吗?内核增加会有所帮助吗?

0 个答案:

没有答案