Question

我有一个Spark进程，当前正在使用mongo-hadoop网桥（来自https://github.com/mongodb/mongo-hadoop/blob/master/spark/src/main/python/README.rst）来访问mongo数据库：

mongo_url = 'mongodb://localhost:27017/db_name.collection_name'
mongo_rdd = spark_context.mongoRDD(mongo_url)

mongo实例现在正在升级到只能使用副本集访问的群集。

如何使用mongo-hadoop连接器创建RDD？ mongoRDD（）转到mongoPairRDD（），它可能不会占用多个字符串。

Answer 1

MongoDB Hadoop Connector mongoRDD可以使用有效的MongoDB Connection String。

例如，如果它现在是副本集，您可以指定：

mongodb://db1.example.net,db2.example.net:27002,db3.example.net:27003/?db_name&replicaSet=YourReplicaSetName

另见相关信息：