我正在完成群集的配置,我希望通过最小化实际可以访问http协议的计算机来加强安全性
所以我的问题是:当做一个Spark流媒体(比如说通过Twitter提要)时,驱动程序是唯一一个监听流的服务器,然后将数据作为RDD重新分发给执行者,或者是每个执行者都在监听到溪边?
答案 0 :(得分:4)
Spark Streaming将为Spark Streaming配置期间创建的每个接收器发出长时间运行的任务。这些接收器分配在集群的某个节点上。
如果要指定实例化每个接收器的主机,则必须扩展Receiver实现并实现
pd.merge(a, b, on='IDHash')