Question

我正在为一个项目评估Mongo Spark连接器，我得到了不一致的结果。我在我的笔记本电脑上使用MongoDB服务器版本3.4.5，Spark（通过PySpark）版本2.2.0，Mongo Spark Connector版本2.11; 2.2.0本地。对于我的测试数据库，我使用安全数据集http://mongodb-enron-email.s3-website-us-east-1.amazonaws.com/我对Spark SQL查询感兴趣，当我开始为计数运行简单的测试查询时，我每次运行都收到不同的计数。这是我的mongo shell的输出：

> db.messages.count({'headers.To': 'eric.bass@enron.com'})
203

以下是我的PySpark shell的一些输出：

In [1]: df = spark.read.format("com.mongodb.spark.sql.DefaultSource").option("uri", "mongodb://127.0.0.1/enron_mail.messages").load()
In [2]: df.registerTempTable("messages")
In [3]: res = spark.sql("select count(*) from messages where headers.To='eric.bass@enron.com'")
In [4]: res.show()
+--------+                                                                      
|count(1)|
+--------+
|     162|
+--------+
In [5]: res.show()
+--------+                                                                      
|count(1)|
+--------+
|     160|
+--------+
In [6]: res = spark.sql("select count(_id) from messages where headers.To='eric.bass@enron.com'")
In [7]: res.show()
+----------+                                                                    
|count(_id)|
+----------+
|       161|
+----------+
In [8]: res.show()
+----------+                                                                    
|count(_id)|
+----------+
|       162|
+----------+

我在谷歌搜索过这个问题，但我没有找到任何帮助。如果有人有任何想法，为什么会发生这种情况以及如何正确处理，请分享您的想法。我有一种感觉，也许我错过了某些东西，或者某些东西没有正确配置。

更新我解决了我的问题。计数不一致的原因是 MongoDefaultPartitioner 包装了使用随机抽样的 MongoSamplePartitioner 。说实话，对我来说，这是一个非常奇怪的默认。我个人更喜欢使用缓慢但一致的分区程序。有关分区程序选项的详细信息，请参阅官方configuration options文档。

更新将解决方案复制到答案中。

Answer 1

我解决了我的问题。计数不一致的原因是 MongoDefaultPartitioner 包装了使用随机抽样的 MongoSamplePartitioner 。说实话，对我来说，这是一个非常奇怪的默认。我个人更喜欢使用缓慢但一致的分区程序。有关分区程序选项的详细信息，请参阅官方configuration options文档。

<强>码

val df = spark.read
  .format("com.mongodb.spark.sql.DefaultSource")
  .option("uri", "mongodb://127.0.0.1/enron_mail.messages")
  .option("partitioner", "spark.mongodb.input.partitionerOptions.MongoPaginateBySizePartitioner ")
  .load()

Answer 2

此问题主要是由于2.2.0 Mongo Connector中的SPARK-151错误造成的。它已在2.2.1版本中得到解决，我已经确认。您可以继续使用2.2.1的默认分区程序。

为什么Mongo Spark连接器会为查询返回不同和不正确的计数？

2 个答案: