Spark Streaming期间有多少台服务器在监听?

时间:2015-07-01 15:04:05

标签: apache-spark spark-streaming

我正在完成群集的配置,我希望通过最小化实际可以访问http协议的计算机来加强安全性

所以我的问题是:当做一个Spark流媒体(比如说通过Twitter提要)时,驱动程序是唯一一个监听流的服务器,然后将数据作为RDD重新分发给执行者,或者是每个执行者都在监听到溪边?

1 个答案:

答案 0 :(得分:4)

Spark Streaming将为Spark Streaming配置期间创建的每个接收器发出长时间运行的任务。这些接收器分配在集群的某个节点上。

如果要指定实例化每个接收器的主机,则必须扩展Receiver实现并实现

pd.merge(a, b, on='IDHash')