是否可以使用Spark结构化流通过readStream从mongo db读取数据?
对于结构化流的标准用法,我通常这样做:
val dataFrame = spark.readStream.format("parquet").option("header","true").schema(customSchema).load(path)
val query = preprocessedData.writeStream.outputMode("append").format("console").start()
query.awaitTermination()
我知道如何使用spark从mongo读取数据:
val sparkSession = org.apache.spark.sql.SparkSession.builder
.master("local")
.appName("MongoSparkConnector")
.config("spark.mongodb.input.uri", mongodb_input_uri)
.config("spark.mongodb.output.uri", mongodb_output_uri)
.getOrCreate()
val data = sparkSession.read.format("com.mongodb.spark.sql.DefaultSource").load()
但是现在我想使用这两个概念在mongodb源上设置结构化流((只读,我不需要用mongo编写)