我正在使用mongo-spark连接器在scala中创建一个rdd。我在built.sbt
中添加了以下内容libraryDependencies += "org.mongodb.spark" % "mongo-spark-connector_2.11" % "2.0.0"
Followinf是我的sparkconf:
val sparkConf = new `SparkConf().setAppName("stanfordner").set("spark.driver.allowMultipleContexts","true").set("spark.serializer", "org.apache.spark.serializer.KryoSerializer").set("spark.kryoserializer.buffer.max", "1g").set("spark.mongodb.input.uri", "mongodb://127.0.0.1/").set("spark.mongodb.input.database", "db").set("spark.mongodb.input.collection", "coll")`
我尝试使用:
从mongo集合创建一个rddval rdd = sc.loadFromMongoDB()
val rdd = MongoSpark.load(sc)
但是每次运行代码时,我都会得到一个包含不同数量文档的rdd。我不明白为什么会这样。任何帮助将不胜感激。