如何在Apache Spark中链接多个作业

时间:2018-05-14 08:47:42

标签: apache-spark hadoop apache-spark-sql spark-streaming yarn

我想知道有没有办法在Spark中链接作业,所以第一个作业的输出RDD(或其他格式)作为输入传递给第二个作业?

Apache Spark是否有任何API?这是否是惯用法?

我发现有一种方法可以通过纱线客户端启动另一个进程,例如Spark - Call Spark jar from java with arguments,但这假设您将它保存到作业之间的某个中间存储中。

SparkContext上还有runJob和submitJob,但它们是否适合它?

1 个答案:

答案 0 :(得分:0)

使用相同的RDD定义来定义作业的输入/输出。 然后你应该能够链接它们。

另一个选择是使用DataFrames而不是RDD,并在运行时计算出架构。