我正在尝试读取具有110 GB数据的oracle表并以PARQUET格式写入。
Spark 1.6版本。数据由PARTITION_DATE
进行了分区。此作业的运行速度非常慢,几个小时后失败。
以下是我给的内存参数:
SPRINTER_X_DRIVER_MEMORY 24
SPRINTER_X_EXECUTOR_CORES 8
SPRINTER_X_EXECUTOR_INSTANCES 8
SPRINTER_X_EXECUTOR_MEMORY 16
sparkParallelDegree 32
========================
Stage Id||Description ||Duration || Tasks:Succeeded/Total
4 ||parquet at DF.scala:51 ||30 min || 0/32
========================
Stuck line: DF.scala:line 51 => df.write.mode(SaveMode.Overwrite).parquet(tbpath)
请告知。