应用错误收集

我有一个应用程序，其中我应该查询hive，它将返回一组记录（几乎50）。对于返回的每条记录，我必须在hive上触发查询并获取相关数据帧。这就是它的样子：

val employeeIds = hiveContext.sql("select id from employee")
val vertices = employeeIds.foreach(row => {

  val employeeId = row.getInt(0)

  val query = s""" select * from department where employeeId = $employeeId"""

  //.... I would have to create a hive context here ....

})

但是如果我这样做会有来自执行者的新上下文产生，任何消除这种方法的指针都会非常有用。

注意：我已将信息屏蔽到stackoverflow的帖子。我必须根据第一个查询的记录触发查询。我无法加入员工和部门表。

如何避免在spark sql中产生多个作业scenio

0 个答案: