在我的Spark Streaming作业中,CPU使用率不足(仅为5-10%)。
它从Kafka获取数据并发送到DynomoDB或thridparty端点。
是否有任何建议可以更好地利用cpu资源,假设端点不是瓶颈。
答案 0 :(得分:0)
Kafka的并行度取决于主题的分区数。
如果主题中的分区数量很少,您将无法在火花流式集群中高效并行化。
首先,增加主题的分区数。
如果无法增加Kafka主题的分区,请在DStream.foreachRdd之后通过重新分区来增加分区数。
这将在所有节点之间分配数据并提高效率。