我是Spark的新手并且想知道它随时间动态变化的能力,我的主要兴趣在于Spark的Streaming能力。
据我所知,Stream部分在创建输入(DStream)后立即结束,从该部分开始处理数据的核心Spark引擎。
我主要关心的是集群的dunamics,在代码Spark中,每次批量合并开始/调度时都可以更新集群。但Streams应该由设置的间隔调用。
我的问题是群集的灵活性如何?如果我使用集群管理器作为Zookeeper,我看到(现在找不到引用)工作节点可以与Zookeeper动态关联。但是,灵活附加的SparkContext是什么?我可以在群集中拥有多个SparkContext吗?它们是否可以动态添加/删除?
编辑:我想要实现的是一个动态集群,假设我在数据上运行机器学习算法,首先我必须运行一个算法,其中延迟的持续时间是1秒,所以我开始一个持续时间= 1秒的StreamContext,后来我想添加另一个算法,但我需要5秒的超时,我的问题是我是否可以动态地将第二个StreamContext添加到集群中(不会停止集群的整个执行)。