是否可以在spark中并行地在单个数据帧上运行多个聚合作业?

时间:2016-06-25 10:37:25

标签: apache-spark parallel-processing pyspark etl

有没有办法在单个RDD上并行运行多个独立的聚合作业?首先是Python,然后是Scala和Java。

按优先顺序排列的行动过程是 -

  1. 使用Threadpool - 运行在不同线程上执行不同聚合的不同函数。我没有看到这样做的例子。

  2. 在纱线上使用群集模式,提交不同的罐子。这是可能的,如果是,则可以在pyspark吗?

  3. 使用Kafka - 通过kafka在数据帧流上运行不同的spark-submit。

  4. 我对Spark很陌生,我的经验范围包括为ETL运行Spark on Yarn,连续进行多个聚合。我在想是否可以并行运行这些聚合,因为它们大多是独立的。

1 个答案:

答案 0 :(得分:0)

考虑你的广泛问题,这是一个广泛的答案:

,可以并行在单个DataFrame上运行多个聚合作业。

对于其他人来说,似乎并不清楚你在问什么。