我正在使用具有16核和30 GIB RAM Pyspark服务器的AWS EMR。我正在使用python3内核并运行程序。完成80%后,内核即将死机,错误“内核似乎已经死亡。它将自动重启”。
我没有使用tensorflow。我认为它正在读取620 MB数据帧,这是在进程中生成并加入2 MB数据帧。
df1=pd.merge(df1,df2,how='left',left_on=['col2','col2', 'col3','col4'],right_on=['col2','col2', 'col3','col4']).drop_duplicates()
任何想法如何减少RAM的负担并解决内核死亡问题?