Spark:增加任务/分区的数量

时间:2017-08-21 08:03:48

标签: hadoop apache-spark rdd

  

Spark中的任务数量由阶段开始时的RDD分区总数决定。例如,当Spark应用程序从HDFS读取数据时,Hadoop RDD的分区方法继承自MapReduce中的FileInputFormat,这受HDFS块大小,mapred.min.split.size的值和.full{ min-height: 100%; background-color: white; /*background-image: linear-gradient(to right, rgba(255, 255, 255, 1) 0%, rgba(255, 255, 255, 0.3) 90%), url("america/cservice.jpeg");*/ /*background-blend-mode: lighten;*/ padding-top:25px ; color: #5a5a5a; /*color: black;*/ padding-bottom: 20px; text-align: center; align-items: center; border-top: 5px solid rgba(0, 0, 102, 0.5); border-bottom: 5px solid rgba(0, 0, 102, 0.5); font-family: "Palatino Linotype", "Book Antiqua", Palatino, serif; } .image{ width: 100%; height: 280px; background-image: url(america/news2.png); background-size: cover; background-repeat: no-repeat; position: relative; padding-top: 20px; padding-bottom: 20px; display: block; margin: 0 auto; } .bor { position: absolute; border: 5px solid; border-color: rgba(255, 255, 255, 0.5); padding-top:; padding-bottom:; background-color: rgba(133, 133, 173, 0.4); left: 0; right: 0; } h2 { position: absolute; width: 100%; color: black; font-size: 40px; padding-top: 85px; } h4 { position: relative; width: 100%; color: white; font-size: 30px; padding-top: 155px; font-stretch: ultra-expanded; } b{ border: 5px solid black; padding-right: 25px; padding-left: 25px; margin-left: 20px; margin-right: 20px; color: white; font-weight: 900; font-size: 40px; }的影响。压缩方法等

The screenshot of my tasks

截图中的任务耗时7,7,4秒,我想让它们保持平衡。另外,阶段分为3个任务,有没有办法指定Spark分区/任务的数量?

1 个答案:

答案 0 :(得分:0)

任务依赖于分区。您可以为RDD设置分区程序,在分区程序中,您可以设置分区数。