我有一个Spark Streaming应用程序将DStream转换为DataFrame并将其发送到API。来自API的响应DataFrame被写入HDFS。我注意到HDFS写入作业中的任务没有正确地分布在集群中。
这是Spark UI的executors tab。
以下是spark-submit
配置:
--num-executors 16 \
--executor-memory 11888M \
--executor-cores 5 \
--driver-memory 12G \
我每3秒播放近40条消息。