应用错误收集

为大型数据集创建假人时，Datalab内核崩溃

时间：2019-05-28 17:32:56

标签： python-3.x pandas google-bigquery kernel google-cloud-datalab

我正在云数据实验室上运行一个16 cpus / 104 gb内存实例。

当我从大型查询导入具有2000列的数据集并将其转换为数据框时，它的工作原理完全正常。转换过程大约需要90分钟。该文件的大小为3gb，具有200,000行。

下一步，我尝试为数据中的所有分类变量创建虚拟变量。我正在使用pandas的get dummies函数，一旦运行它，数据实验室就会崩溃。

“内核似乎已死亡。它将自动重新启动jupyter笔记本”

这是内存问题吗？内核增加会有所帮助吗？

0 个答案:

没有答案