Scala:使用Future / ParSeq进行并行Spark查询?

时间:2016-08-11 19:54:42

标签: scala apache-spark parallel-processing

我需要使用Spark在几个不同的镶木地板文件上执行几个不同的查询。每个查询都是不同的,并且具有应用它的自己的功能。例如:

def query1(sqtx: sqlContext): DataFrame = {
  sqtx.sql("select clients as people, reputation from table1") }


def query2(sqtx: sqlContext): DataFrame = {
  sqtx.sql("select passengers as people, reputation from table2") }

等等。如您所见,虽然所有查询都不同,但所有输出的架构都是相同的。

查询后,我想在所有成功输出上使用unionAll。这是我的问题 - 如何?此处无法使用ParSeq.map,因为每个查询的映射都不同,并且使用Future似乎并不适合这种情况(我需要使用onComplete在每一个,看看它是否失败,等等。)

任何想法如何做到这一点?

0 个答案:

没有答案