在Scala Application中使用Spark MongoDB连接器时,可以通过import com.mongodb.spark.config._导入MongoSpark配套对象,然后运行 val rdd = MongoSpark.load(spark)加载你的集合。我想在python应用程序中做同样的事情,但是如何在我的python应用程序中使MongoSpark对象可用。没有要安装和导入的python包。什么是变通方法
答案 0 :(得分:1)
有关详细信息,请参阅Spark Connector Python Guide。
以下是从pySpark连接到MongoDB的简短示例:
from pyspark.sql import SparkSession
spark = SparkSession \
.builder \
.appName("myApp") \
.config("spark.mongodb.input.uri", "mongodb://127.0.0.1/test.coll") \
.config("spark.mongodb.output.uri", "mongodb://127.0.0.1/test.coll") \
.getOrCreate()
df = spark.read.format("com.mongodb.spark.sql.DefaultSource").load()
df.printSchema()