使用Phoenix数据源写入Spark数据集:分区中的行不均匀

时间:2019-05-13 17:49:50

标签: apache-spark apache-spark-sql hbase spark-streaming phoenix

  • 我们正在运行Spark流媒体应用程序,以监听 HDFS目录。
  • 读取文件后,我们将使用以下命令将RDD转换为数据集 SQLContext。
  • 使用数据集的write()方法将该数据集保存到Hbase, 我们使用的格式是Phoenix数据源“ org.apache.pheonix.spark”。
  • saveAsNewHadoopAPI阶段,分区的编号不相等 行数,因此只有一个执行程序会承担大部分负载。不 能够了解这里出了什么问题或如何解决的?
  • 附加了“执行者指标”和“任务”表的屏幕截图 的saveAsNewHadoopAPI阶段。

执行人的指标 enter image description here

任务表 enter image description here

请告诉我们这里出了什么问题

0 个答案:

没有答案