应用错误收集

带有Spark连接器的MongoDB

时间：2017-01-25 09:30:38

标签： mongodb apache-spark sharding in-memory-database

如果我有一个带有mongodb的副本集，那么主服务器正在接收所有的wirte / read操作并将它们写入服务器。辅助服务器正在从oplog中读取操作并复制它们。现在我想用spark-mongodb-connector分析mongodb副本集中的数据。我可以在所有三个节点上安装一个spark集群，并在内存中运行分析。我知道spark集群有一个主节点，我必须提交spark作为分析，或者火花流。两者都安装在tomcat中的应用程序服务器上。

现在我需要选择一个主节点将作业从我的tomcat应用服务器提交到spark集群。主服务器应该是Spark主节点吗？并且应用程序的驱动程序可以连接以提交作业吗？什么是分片群集中的Spark主人？

1 个答案:

答案 0 :(得分：1)

群集中哪个节点是Spark Master并不重要。 Spark master将负责将任务分配给Spark执行程序，它不会接收所有读/写请求。然后，每个执行程序将负责获取它需要处理的数据。

请注意Spark中的数据分区，mongoDB可能只提供一个单独的分区，因此您可能希望首先执行repartition。