需要调整长期运行的火花作业

时间:2018-12-05 06:47:11

标签: apache-spark

我需要将数据从oracle拉到Hive。我的工作在24小时内完成。 我正在使用Spark JDBC API提取数据。如何调整这项工作?

Oracle table info:
No of blocks:54014592
Memory in MB:421989
DRIVER_MEMORY :25 gb
EXECUTOR_CORES :5
EXECUTOR_INSTANCES :25
EXECUTOR_MEMORY :20 gb
spark Parallel Degree:25

表有29个分区,最大分区大小为93 GB

日志:有很多垃圾收集

18/12/03 05:11:55 INFO scheduler.TaskSetManager:在bdgtr004d02h1u.nam.nsroot.net(执行程序18)(36/64)上的1448053 ms中完成了阶段4.0(TID 144)中的任务16.0 1837.013:[完整GC(System.gc())549M-> 296M(25G),0.5553646秒) 18/12/03 05:22:11信息存储.BlockManagerInfo:在bdgtr015d07h2u.nam.nsroot.net:36517的内存中添加了rdd_10_44(大小:498.7 MB,可用空间:10.3 GB) 18/12/03 05:58:59 INFO scheduler.TaskSetManager:在bdgtr007d17i2u.nam.nsroot.net(执行程序5)上的4271907 ms中完成了阶段4.0(TID 166)中的任务38.0(执行器5)(59/64) 18/12/03 06:16:17信息存储.BlockManagerInfo:在bdgtr006d20i2u.nam.nsroot.net:34124的内存中添加了rdd_10_22(大小:705.2 MB,可用空间:8.4 GB) 5437.013:[完整GC(System.gc())1121M-> 297M(25G),0.6317014秒) 18/12/03 06:17:00 INFO scheduler.TaskSetManager:在bdgtr006d20i2u.nam.nsroot.net(执行器9)(60/64)上的2686834 ms中完成了阶段4.0(TID 192)中的任务22.1 7237.013:[完整GC(System.gc())1112M-> 297M(25G),0.7000144秒) 18/12/03 07:02:15信息存储.BlockManagerInfo:在bdgtr007d17i2u.nam.nsroot.net:43841的内存中添加了rdd_10_63(大小:318.9 MB,可用空间:9.0 GB) 18/12/03 07:02:39 INFO scheduler.TaskSetManager:在bdgtr007d17i2u.nam.nsroot.net(执行程序5)上的8091801 ms中完成了阶段4.0(TID 191)中的任务63.0(执行器5)(61/64) 9037.014:[完整GC(System.gc())1097M-> 297M(25G),0.6828210秒) 18/12/03 07:17:57信息存储.BlockManagerInfo:在bdgtr002d16i2u.nam.nsroot.net:41262的内存中添加了rdd_10_58(大小:247.2 MB,可用空间:9.6 GB) 18/12/03 07:18:17 INFO scheduler.TaskSetManager:在bdgtr002d16i2u.nam.nsroot.net(执行器25)上的9030124 ms中完成了阶段4.0(TID 186)中的任务58.0(执行器25)(62/64) 18/12/03 07:21:11信息存储.BlockManagerInfo:在bdgtr001d01h1u.nam.nsroot.net:41190的内存中添加了rdd_10_0(大小:515.8 MB,可用空间:10.0 GB) 18/12/03 07:21:49 INFO scheduler.TaskSetManager:在bdgtr001d01h1u.nam.nsroot.net(执行程序8)上的9241836 ms中完成了阶段4.0(TID 128)中的任务0.0(执行器8)(63/64) 10837.013:[完整GC(System.gc())1095M-> 297M(25G),0.7272104秒) 18/12/03 07:51:01信息存储.BlockManagerInfo:在bdgtr009d08i2u.nam.nsroot.net:44716的内存中添加了rdd_10_59(大小:287.4 MB,可用:9.4 GB)

0 个答案:

没有答案