应用错误收集

Spark Streaming Context中Streams的并行性

时间：2015-06-26 17:01:59

标签： apache-spark apache-kafka spark-streaming

我有多个输入源（~200）来自Kafka主题 - 每个的数据都相似，但每个都必须单独运行，因为模式存在差异 - 我们需要对feed执行聚合运行状况检查（所以我们不能以一种简单的方式将它们全部放入一个主题中，而不会在下游创建更多的工作）。我已经创建了一个带有火花流上下文的spark应用程序，一切似乎都在工作，除了它只是按顺序运行流。每个流中都存在某些瓶颈，这使得效率非常低，而且我希望所有流可以同时运行 - 这可能吗？我找不到一个简单的方法来做到这一点。我已经看到了concurrentJobs参数，但是没有按预期工作。如果没有简单的技术解决方案，也欢迎任何设计建议。

由于

1 个答案:

答案 0 :(得分：0)

答案在这里： https://spark.apache.org/docs/1.3.1/job-scheduling.html 使用fairscheduler.xml文件。

默认情况下它是FIFO ...只有在我明确写入文件后才能为我工作（由于某些原因无法以编程方式设置它）。