mongo-spark连接器每次从集合中读取不同数量的文档

时间:2017-02-02 12:03:32

标签: mongodb scala apache-spark sbt connector

我正在使用mongo-spark连接器在scala中创建一个rdd。我在built.sbt

中添加了以下内容
libraryDependencies += "org.mongodb.spark" % "mongo-spark-connector_2.11" % "2.0.0"

Followinf是我的sparkconf:

val sparkConf = new `SparkConf().setAppName("stanfordner").set("spark.driver.allowMultipleContexts","true").set("spark.serializer", "org.apache.spark.serializer.KryoSerializer").set("spark.kryoserializer.buffer.max", "1g").set("spark.mongodb.input.uri", "mongodb://127.0.0.1/").set("spark.mongodb.input.database", "db").set("spark.mongodb.input.collection", "coll")`

我尝试使用:

从mongo集合创建一个rdd
val rdd = sc.loadFromMongoDB()

val rdd = MongoSpark.load(sc) 但是每次运行代码时,我都会得到一个包含不同数量文档的rdd。我不明白为什么会这样。任何帮助将不胜感激。

0 个答案:

没有答案