标签: apache-spark hbase apache-spark-sql
我正在使用spark 1.4并且我试图通过使用sc.newAPIHadoopRDD来读取来自Hbase的数据来读取2.7 GB数据,但是为此阶段创建了5个任务并且需要2 t0 3分钟来处理它。任何人都可以让我知道如何增加更多的分区来快速读取数据吗?
答案 0 :(得分:1)
org.apache.hadoop.hbase.mapreduce.TableInputFormat为每个区域创建一个分区。您的表似乎分为5个区域。预分割表应增加分区数量(有关分割的更多信息,请查看here)。
org.apache.hadoop.hbase.mapreduce.TableInputFormat