Spark Streaming中的数据接收

时间:2015-05-26 02:22:35

标签: apache-spark distributed-computing spark-streaming

最近我一直在Spark Streaming上进行性能测试。但是有些问题让我困惑不已 在Spark Streaming中,接收器计划在工作节点上的执行程序中运行。

  1. 群集中有多少个接收器?我可以控制接收器的数量吗?
  2. 如果不是所有工作人员都运行接收器来接收流数据,那么其他工作节点将不会收到任何数据?在这种情况下,我如何保证基于数据位置的任务调度?从运行接收器的节点复制数据?

1 个答案:

答案 0 :(得分:2)

DStream只有一个接收者,但您可以将多个DStreamunion一起创建为一个接收者。这就是为什么建议对至少Spark Streaming(接收器)+ 1个核心的集群运行N的原因。一旦数据通过接收部分,它主要是一个简单的Spark应用程序,并遵循批处理作业的相同规则。 (这就是流式传输称为微批处理的原因)