结构化流式传输作业不使用所有工作者

时间:2016-12-05 16:44:10

标签: apache-spark apache-spark-2.0 spark-structured-streaming

我有一个Spark 2.0.2结构化流媒体作业连接到Apache Kafka数据流作为源。这项工作从Kafka获取Twitter数据(JSON),并使用CoreNLP通过情感,词性标记等内容来注释数据。它适用于--num-executors主人。但是,当我设置一个独立的Spark群集时,只有一个工作程序习惯于处理数据。我有两个具有相同能力的工人。

在提交我失踪的工作时,我需要设置一些东西吗?我已尝试在spark-submit命令中设置<pre>{{courses.ProductTitle}}</pre>,但我没有运气。

提前感谢指针朝着正确的方向发展。

1 个答案:

答案 0 :(得分:0)

我最终创建了包含更多分区的kafka源流。这似乎加快了处理部分9倍。 Spark和kafka有很多旋钮。有待筛选......请参阅Kafka topic partitions to Spark streaming