如何在结构化流传输中从mongodb流数据?

时间:2019-08-06 10:35:15

标签: mongodb apache-spark spark-structured-streaming

是否可以使用Spark结构化流通过readStream从mongo db读取数据?

对于结构化流的标准用法,我通常这样做:

val dataFrame = spark.readStream.format("parquet").option("header","true").schema(customSchema).load(path)
      val query = preprocessedData.writeStream.outputMode("append").format("console").start()
      query.awaitTermination()

我知道如何使用spark从mongo读取数据:

val sparkSession = org.apache.spark.sql.SparkSession.builder
      .master("local")
      .appName("MongoSparkConnector")
      .config("spark.mongodb.input.uri", mongodb_input_uri)
      .config("spark.mongodb.output.uri", mongodb_output_uri)
      .getOrCreate()

val data = sparkSession.read.format("com.mongodb.spark.sql.DefaultSource").load()

但是现在我想使用这两个概念在mongodb源上设置结构化流((只读,我不需要用mongo编写)

0 个答案:

没有答案