在Spark sc.newAPIHadoopRDD中读取带有5个分区的2.7 GB数据

时间:2016-09-22 01:25:39

标签: apache-spark hbase apache-spark-sql

我正在使用spark 1.4并且我试图通过使用sc.newAPIHadoopRDD来读取来自Hbase的数据来读取2.7 GB数据,但是为此阶段创建了5个任务并且需要2 t0 3分钟来处理它。任何人都可以让我知道如何增加更多的分区来快速读取数据吗?

1 个答案:

答案 0 :(得分:1)

org.apache.hadoop.hbase.mapreduce.TableInputFormat为每个区域创建一个分区。您的表似乎分为5个区域。预分割表应增加分区数量(有关分割的更多信息,请查看here)。