在Bluemix上运行了Hadoop Big Insights和Apache Spark服务的配置后,我注意到Hadoop是非常可配置的。我可以选择群集中将有多少个节点以及那些节点的RAM和CPU核心节点以及硬盘空间
但Spark服务似乎不太可配置。我唯一的选择是选择2到30个Spark执行器。
我正在使用Bluemix作为评估这些服务的IBM IC4项目的一部分,所以我对此有几个问题。
是否可以采用与Hadoop服务类似的方式配置Spark服务?即选择节点,节点RAM,CPU核心等。
在这种情况下,什么是Spark执行者?他们是节点吗?如果是这样,他们的规格是什么?
是否有计划在未来改进Spark配置的选项?
对问题表示歉意,但我需要了解这些规范才能开展工作。
答案 0 :(得分:1)
Big Insights服务是一些人称之为托管服务的服务。也就是说,当您在此服务的实例上进行置备时,您将获得自己的集群,其节点已按所选计划中的指定进行配置。因此,您想要准确了解您为每个节点支付的费用。另一方面,Apache Spark服务是一个共享的计算服务,您可以通过它来支付计算以运行您的spark程序。运行火花是关于内存计算,并在其他数据服务托管的数据源上创建RDD。因此,在这种情况下,重要的是我可以运行多少并发作业,以及可以运行多少内存任务以及内存量等等。在Spark服务计划中,这些执行程序似乎是这个计算能力的抽象;遗憾的是,如果您关心它,很难将其映射到物理硬件。计划描述需要更详细的说明以及有关如何将此抽象转换为如何映射到工作负载需求的详细信息。
但是,据我所知,在不久的将来某些方面应该大大改善。有传言说只有一个火花服务计划,你可以随时拨入,你需要多少计算,当你点击" go",来自所有火花作业那一点;看起来你可以旋转拨号盘,直到你得到你想要的东西,看看会花多少钱,然后锁定它,直到你下次需要改变它。我可以想象一些比每个工作更动态的东西。但无论如何,似乎这个计算服务的方向可能正在发生。