使用副本集和用于Spark的mongo-hadoop连接器连接到Mongo

时间:2016-08-04 00:32:19

标签: mongodb apache-spark pymongo rdd replicaset

我有一个Spark进程,当前正在使用mongo-hadoop网桥(来自https://github.com/mongodb/mongo-hadoop/blob/master/spark/src/main/python/README.rst)来访问mongo数据库:

mongo_url = 'mongodb://localhost:27017/db_name.collection_name'
mongo_rdd = spark_context.mongoRDD(mongo_url)

mongo实例现在正在升级到只能使用副本集访问的群集。

如何使用mongo-hadoop连接器创建RDD? mongoRDD()转到mongoPairRDD(),它可能不会占用多个字符串。

1 个答案:

答案 0 :(得分:0)

MongoDB Hadoop Connector mongoRDD可以使用有效的MongoDB Connection String

例如,如果它现在是副本集,您可以指定:

mongodb://db1.example.net,db2.example.net:27002,db3.example.net:27003/?db_name&replicaSet=YourReplicaSetName

另见相关信息: