应用错误收集

在Spark sc.newAPIHadoopRDD中读取带有5个分区的2.7 GB数据

时间：2016-09-22 01:25:39

标签： apache-spark hbase apache-spark-sql

我正在使用spark 1.4并且我试图通过使用sc.newAPIHadoopRDD来读取来自Hbase的数据来读取2.7 GB数据，但是为此阶段创建了5个任务并且需要2 t0 3分钟来处理它。任何人都可以让我知道如何增加更多的分区来快速读取数据吗？

1 个答案:

答案 0 :(得分：1)

org.apache.hadoop.hbase.mapreduce.TableInputFormat为每个区域创建一个分区。您的表似乎分为5个区域。预分割表应增加分区数量（有关分割的更多信息，请查看here）。