如何避免在spark sql中产生多个作业scenio

时间:2016-08-18 08:55:04

标签: apache-spark apache-spark-sql

我有一个应用程序,其中我应该查询hive,它将返回一组记录(几乎50)。对于返回的每条记录,我必须在hive上触发查询并获取相关数据帧。这就是它的样子:

val employeeIds = hiveContext.sql("select id from employee")
val vertices = employeeIds.foreach(row => {

  val employeeId = row.getInt(0)

  val query = s""" select * from department where employeeId = $employeeId"""

  //.... I would have to create a hive context here ....

})

但是如果我这样做会有来自执行者的新上下文产生,任何消除这种方法的指针都会非常有用。

注意: 我已将信息屏蔽到stackoverflow的帖子。我必须根据第一个查询的记录触发查询。我无法加入员工和部门表。

0 个答案:

没有答案