python中的MongoSpark伴侣对象

时间:2017-04-26 14:10:35

标签: python mongodb scala apache-spark

在Scala Application中使用Spark MongoDB连接器时,可以通过import com.mongodb.spark.config._导入MongoSpark配套对象,然后运行 val rdd = MongoSpark.load(spark)加载你的集合。我想在python应用程序中做同样的事情,但是如何在我的python应用程序中使MongoSpark对象可用。没有要安装和导入的python包。什么是变通方法

1 个答案:

答案 0 :(得分:1)

有关详细信息,请参阅Spark Connector Python Guide

以下是从pySpark连接到MongoDB的简短示例:

from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .appName("myApp") \
    .config("spark.mongodb.input.uri", "mongodb://127.0.0.1/test.coll") \
    .config("spark.mongodb.output.uri", "mongodb://127.0.0.1/test.coll") \
    .getOrCreate()

df = spark.read.format("com.mongodb.spark.sql.DefaultSource").load()
df.printSchema()