Spark开始使用Kinesis流程的消费者有多少?

时间:2016-08-26 09:25:30

标签: apache-spark spark-streaming amazon-kinesis

我有一个Spark Cluster(1.6.1),在Mesos上运行1个主服务器和4个从服务器。我正在运行来自Kinesis Stream的过程数据的spark作业。代码工作正常,但我可以看到Spark大量使用两个奴隶。

经过更多调查,我发现Kinesis流租约只发给一台机器,每个数据用一台机器复制。

有关详细信息,请参阅下面的Spark UI图片

enter image description here

我的问题是为什么Spark没有使用其他两个奴隶? Spark总是只启动一个监听器吗?它是否依赖于Kinesis流中的分片数量?

1 个答案:

答案 0 :(得分:0)

确保创建的Amazon Kinesis接收器的数量是执行器的倍数,以便在所有执行器之间均衡地均衡负载。

参考 - https://blogs.aws.amazon.com/bigdata/post/Tx3ET30EGDKUUI2/Implementing-Efficient-and-Reliable-Producers-with-the-Amazon-Kinesis-Producer-L