我有一个Spark 2.0.2结构化流媒体作业连接到Apache Kafka数据流作为源。这项工作从Kafka获取Twitter数据(JSON),并使用CoreNLP通过情感,词性标记等内容来注释数据。它适用于--num-executors
主人。但是,当我设置一个独立的Spark群集时,只有一个工作程序习惯于处理数据。我有两个具有相同能力的工人。
在提交我失踪的工作时,我需要设置一些东西吗?我已尝试在spark-submit
命令中设置<pre>{{courses.ProductTitle}}</pre>
,但我没有运气。
提前感谢指针朝着正确的方向发展。
答案 0 :(得分:0)
我最终创建了包含更多分区的kafka源流。这似乎加快了处理部分9倍。 Spark和kafka有很多旋钮。有待筛选......请参阅Kafka topic partitions to Spark streaming