应用错误收集

结构化流式传输作业不使用所有工作者

时间：2016-12-05 16:44:10

标签： apache-spark apache-spark-2.0 spark-structured-streaming

我有一个Spark 2.0.2结构化流媒体作业连接到Apache Kafka数据流作为源。这项工作从Kafka获取Twitter数据（JSON），并使用CoreNLP通过情感，词性标记等内容来注释数据。它适用于--num-executors主人。但是，当我设置一个独立的Spark群集时，只有一个工作程序习惯于处理数据。我有两个具有相同能力的工人。

在提交我失踪的工作时，我需要设置一些东西吗？我已尝试在spark-submit命令中设置<pre>{{courses.ProductTitle}}</pre>，但我没有运气。

提前感谢指针朝着正确的方向发展。

1 个答案:

答案 0 :(得分：0)

我最终创建了包含更多分区的kafka源流。这似乎加快了处理部分9倍。 Spark和kafka有很多旋钮。有待筛选......请参阅Kafka topic partitions to Spark streaming

Gearman（使用PHP） - 可以向所有工作人员发送工作/消息吗？
延迟工作的工人需要跑步工作
并非所有Spark Workers都在启动：SPARK_WORKER_INSTANCES
带水槽的结构化流媒体
结构化流式传输作业不使用所有工作者
延迟工作人员
结构化流作业在awaitTermination失败
重新启动Spark结构化流作业会消耗数百万个Kafka消息并消亡
Spark结构化流作业静默退出
使用结构化流一次将所有数据写入拼花文件

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？