Spark Receivers

时间:2018-03-14 09:32:21

标签: apache-spark bigdata spark-streaming

根据Spark Streaming Guide

  

DStream与单个接收器关联。为了获得读并行性,需要创建多个接收器,即多个DStream。接收器在执行器内运行。它占据一个核心。确保在预订接收器插槽后有足够的内核进行处理,即spark.cores.max应考虑接收器插槽。接收者以循环方式分配给执行者。

我有些疑惑。

  1. 如果接收器在执行器内运行,是否每个批处理间隔只有一个接收器实例?如果没有,那么有没有办法决定/控制接收器的数量?
  2. 接收器占用一个核心来读取数据并生成块。根据我的理解,只有在为该特定微批次生成所有分区/块之后才开始处理。那么,在读取所有数据之后接收器是否释放其资源使用,以便现在可用的核心可用于处理?如果是这样,那么为什么
  3.   

    spark.cores.max应该考虑接收器插槽??

    任何帮助将不胜感激。我无法在这一部分找到深入的解释。

0 个答案:

没有答案