有没有办法在单个RDD上并行运行多个独立的聚合作业?首先是Python,然后是Scala和Java。
按优先顺序排列的行动过程是 -
使用Threadpool - 运行在不同线程上执行不同聚合的不同函数。我没有看到这样做的例子。
在纱线上使用群集模式,提交不同的罐子。这是可能的,如果是,则可以在pyspark吗?
使用Kafka - 通过kafka在数据帧流上运行不同的spark-submit。
我对Spark很陌生,我的经验范围包括为ETL运行Spark on Yarn,连续进行多个聚合。我在想是否可以并行运行这些聚合,因为它们大多是独立的。
答案 0 :(得分:0)
考虑你的广泛问题,这是一个广泛的答案:
是,可以并行在单个DataFrame上运行多个聚合作业。
对于其他人来说,似乎并不清楚你在问什么。