我有一个巨大的数据框(df),在对它进行一些处理和操作后,我想将其保存为表。
df.write.partitionBy('p1', 'p2', 'p3', 'p4').format("parquet").saveAsTable('table_name')
我收到此错误:
Container killed by YARN for exceeding memory limits. 36.4 GB of 36 GB physical memory used.
此消息太多:
19/10/17 00:52:10 WARN org.apache.spark.scheduler.TaskSetManager: Lost task 190.3 in stage 0.0 (
无论我增加--executor-memory多少,我仍然会收到具有不同数字的相同错误。我该如何解决这个问题?