带有Spark连接器的MongoDB

时间:2017-01-25 09:30:38

标签: mongodb apache-spark sharding in-memory-database

如果我有一个带有mongodb的副本集,那么主服务器正在接收所有的wirte / read操作并将它们写入服务器。 辅助服务器正在从oplog中读取操作并复制它们。  现在我想用spark-mongodb-connector分析mongodb副本集中的数据。我可以在所有三个节点上安装一个spark集群,并在内存中运行分析。 我知道spark集群有一个主节点,我必须提交spark作为分析,或者火花流。两者都安装在tomcat中的应用程序服务器上。

现在我需要选择一个主节点将作业从我的tomcat应用服务器提交到spark集群。 主服务器应该是Spark主节点吗?并且应用程序的驱动程序可以连接以提交作业吗? 什么是分片群集中的Spark主人?

1 个答案:

答案 0 :(得分:1)

群集中哪个节点是Spark Master并不重要。 Spark master将负责将任务分配给Spark执行程序,它不会接收所有读/写请求。 然后,每个执行程序将负责获取它需要处理的数据。

请注意Spark中的数据分区,mongoDB可能只提供一个单独的分区,因此您可能希望首先执行repartition