构建火花工作

时间:2018-02-04 17:30:43

标签: apache-spark apache-kafka

是否可以在单个DStream源上并行执行一组不同的转换?

例如: 我可能会读取一个文件并获得一个DStream。是否可以执行      1. reduceByKey等操作      2. reduceByKeyAndWindow等等      3.其他一些聚合和更多

上述3组操作是独立的,必须与单一来源分开执行。 问题是,重新洗牌有什么影响? 假设,所有3个都不需要重新洗牌,并且它们是并行评估的,而不是其中一个步骤需要重新洗牌。那会产生两种不同的结果吗?

试图了解火花作业的流程。是否有可能并行执行需要重新洗牌的多个不同转换? 在这种情况下,最好一共运行多个火花作业?

0 个答案:

没有答案