如果我有一个带有mongodb的副本集,那么主服务器正在接收所有的wirte / read操作并将它们写入服务器。 辅助服务器正在从oplog中读取操作并复制它们。 现在我想用spark-mongodb-connector分析mongodb副本集中的数据。我可以在所有三个节点上安装一个spark集群,并在内存中运行分析。 我知道spark集群有一个主节点,我必须提交spark作为分析,或者火花流。两者都安装在tomcat中的应用程序服务器上。
现在我需要选择一个主节点将作业从我的tomcat应用服务器提交到spark集群。 主服务器应该是Spark主节点吗?并且应用程序的驱动程序可以连接以提交作业吗? 什么是分片群集中的Spark主人?
答案 0 :(得分:1)
群集中哪个节点是Spark Master并不重要。 Spark master将负责将任务分配给Spark执行程序,它不会接收所有读/写请求。 然后,每个执行程序将负责获取它需要处理的数据。
请注意Spark中的数据分区,mongoDB可能只提供一个单独的分区,因此您可能希望首先执行repartition
。