Spark Direct Stream并发作业限制

时间:2017-02-22 19:24:56

标签: apache-spark concurrency streaming jobs

我正在运行来自kafka的spark直接流,我需要运行许多并发作业,以便及时处理所有数据。在spark中,您可以将spark.streaming.concurrentJobs设置为要运行的多个并发作业。

我想知道的是确定在给定环境中可以运行多少并发作业的逻辑方法。对于我公司的隐私问题,我不能告诉你我的规格,但我想知道的是哪些规格与确定限制有关,为什么?

当然,替代方案是我可以不断增加它并进行测试,然后根据结果进行调整,但我想采用更合乎逻辑的方法,我想真正了解是什么决定了这个限制以及为什么。

1 个答案:

答案 0 :(得分:1)

测试不同数量的并发作业并查看总体执行时间是最可靠的方法。但是,我认为最佳数字大致等于Runtime.getRuntime().availableProcessors();

的值

所以我的建议是从可用处理器的数量开始,然后将其增加和减少1,2和3.然后创建一个图表(执行时间与作业数量相对应),您将看到最佳数量工作。