Question

之前我已经能够加载这个MongoDB数据库了，但现在我收到的错误是我无法弄清楚的。

以下是我开始Spark会话的方法：

spark = SparkSession.builder \
        .master("local[*]") \
        .appName("collab_rec") \
        .config("spark.mongodb.input.uri", "mongodb://127.0.0.1/example.collection") \
        .config("spark.mongodb.output.uri", "mongodb://127.0.0.1/example.collection") \
        .getOrCreate()

我运行这个脚本，以便我可以通过ipython与spark交互，加载mongo spark连接器包：

#!/bin/bash
export PYSPARK_DRIVER_PYTHON=ipython

${SPARK_HOME}/bin/pyspark \
--master local[4] \
--executor-memory 1G \
--driver-memory 1G \
--conf spark.sql.warehouse.dir="file:///tmp/spark-warehouse" \
--packages com.databricks:spark-csv_2.11:1.5.0 \
--packages com.amazonaws:aws-java-sdk-pom:1.10.34 \
--packages org.apache.hadoop:hadoop-aws:2.7.3 \
--packages org.mongodb.spark:mongo-spark-connector_2.11:2.0.0\

Spark加载正常，看起来包装也正确加载。

以下是我尝试将该数据库加载到数据框中的方法：

df = spark.read.format("com.mongodb.spark.sql.DefaultSource").load()

但是，在该行上，我收到以下错误：

Py4JJavaError: An error occurred while calling o46.load.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 1 times, most recent failure: Lost task 0.0 in stage 0.0 (TID 0, localhost, executor driver): java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.analysis.TypeCoercion$.findTightestCommonTypeOfTwo()Lscala/Function2;
    at com.mongodb.spark.sql.MongoInferSchema$.com$mongodb$spark$sql$MongoInferSchema$$compatibleType(MongoInferSchema.scala:132)
    at com.mongodb.spark.sql.MongoInferSchema$$anonfun$3.apply(MongoInferSchema.scala:76)
    at com.mongodb.spark.sql.MongoInferSchema$$anonfun$3.apply(MongoInferSchema.scala:76)

通过以下文档/教程我可以看到，我正在尝试正确加载数据框：

https://docs.mongodb.com/spark-connector/master/python-api/

我正在使用Spark 2.2.0 请注意，我已经能够通过AWS在我的mac和linux上复制此错误。

Answer 1

我找到了问题的答案。这是Mongo-Spark连接器和我升级到的Spark版本的兼容性问题。具体来说，findTightestCommonTypeOfTwo值在PR中重命名：

https://github.com/apache/spark/pull/16786/files

对于Spark 2.2.0，兼容的Mongo-Spark连接器也是2.2.0，因此在我的示例中，包将被加载如下：

--packages org.mongodb.spark:mongo-spark-connector_2.11:2.2.0\

将来可能会发生变化，因此在使用连接器时，应检查与正在使用的Spark版本的兼容性。

MongoDB Spark Connector py4j.protocol.Py4JJavaError：调用o50.load时发生错误

1 个答案: