应用错误收集

时间：2016-06-25 10:37:25

标签： apache-spark parallel-processing pyspark etl

有没有办法在单个RDD上并行运行多个独立的聚合作业？首先是Python，然后是Scala和Java。

按优先顺序排列的行动过程是 -

我对Spark很陌生，我的经验范围包括为ETL运行Spark on Yarn，连续进行多个聚合。我在想是否可以并行运行这些聚合，因为它们大多是独立的。

答案 0 :(得分：0)

考虑你的广泛问题，这是一个广泛的答案：

是，可以并行在单个DataFrame上运行多个聚合作业。

对于其他人来说，似乎并不清楚你在问什么。