标签: python-3.x pandas google-bigquery kernel google-cloud-datalab
我正在云数据实验室上运行一个16 cpus / 104 gb内存实例。
当我从大型查询导入具有2000列的数据集并将其转换为数据框时,它的工作原理完全正常。转换过程大约需要90分钟。该文件的大小为3gb,具有200,000行。
下一步,我尝试为数据中的所有分类变量创建虚拟变量。我正在使用pandas的get dummies函数,一旦运行它,数据实验室就会崩溃。
“内核似乎已死亡。它将自动重新启动jupyter笔记本”
这是内存问题吗?内核增加会有所帮助吗?