我有多个输入源(~200)来自Kafka主题 - 每个的数据都相似,但每个都必须单独运行,因为模式存在差异 - 我们需要对feed执行聚合运行状况检查(所以我们不能以一种简单的方式将它们全部放入一个主题中,而不会在下游创建更多的工作)。我已经创建了一个带有火花流上下文的spark应用程序,一切似乎都在工作,除了它只是按顺序运行流。每个流中都存在某些瓶颈,这使得效率非常低,而且我希望所有流可以同时运行 - 这可能吗?我找不到一个简单的方法来做到这一点。我已经看到了concurrentJobs参数,但是没有按预期工作。如果没有简单的技术解决方案,也欢迎任何设计建议。
由于
答案 0 :(得分:0)
答案在这里: https://spark.apache.org/docs/1.3.1/job-scheduling.html 使用fairscheduler.xml文件。
默认情况下它是FIFO ...只有在我明确写入文件后才能为我工作(由于某些原因无法以编程方式设置它)。