应用错误收集

我正在使用mongo-spark连接器在scala中创建一个rdd。我在built.sbt

中添加了以下内容

libraryDependencies += "org.mongodb.spark" % "mongo-spark-connector_2.11" % "2.0.0"

Followinf是我的sparkconf：

val sparkConf = new `SparkConf().setAppName("stanfordner").set("spark.driver.allowMultipleContexts","true").set("spark.serializer", "org.apache.spark.serializer.KryoSerializer").set("spark.kryoserializer.buffer.max", "1g").set("spark.mongodb.input.uri", "mongodb://127.0.0.1/").set("spark.mongodb.input.database", "db").set("spark.mongodb.input.collection", "coll")`

我尝试使用：

从mongo集合创建一个rdd

val rdd = sc.loadFromMongoDB()

val rdd = MongoSpark.load(sc) 但是每次运行代码时，我都会得到一个包含不同数量文档的rdd。我不明白为什么会这样。任何帮助将不胜感激。

mongo-spark连接器每次从集合中读取不同数量的文档

0 个答案: