应用错误收集

我是Spark的新手并且想知道它随时间动态变化的能力，我的主要兴趣在于Spark的Streaming能力。

据我所知，Stream部分在创建输入（DStream）后立即结束，从该部分开始处理数据的核心Spark引擎。

我主要关心的是集群的dunamics，在代码Spark中，每次批量合并开始/调度时都可以更新集群。但Streams应该由设置的间隔调用。

我的问题是群集的灵活性如何？如果我使用集群管理器作为Zookeeper，我看到（现在找不到引用）工作节点可以与Zookeeper动态关联。但是，灵活附加的SparkContext是什么？我可以在群集中拥有多个SparkContext吗？它们是否可以动态添加/删除？

编辑：我想要实现的是一个动态集群，假设我在数据上运行机器学习算法，首先我必须运行一个算法，其中延迟的持续时间是1秒，所以我开始一个持续时间= 1秒的StreamContext，后来我想添加另一个算法，但我需要5秒的超时，我的问题是我是否可以动态地将第二个StreamContext添加到集群中（不会停止集群的整个执行）。

Spark Streams的动态集群更改

0 个答案: