我正在尝试使用Spark结构化流(火花版本2.3)读取流数据时为我的项目读取JSON数据。 问题:由于我每次尝试都会将spark-shell挂起,因此无法从内存接收器查询数据。 如果我将格式更改为控制台接收器,则可以使用预期的逻辑。我已经查看了文档,但无法 找出我要去哪里。 如果我在spark webUI上进行检查,则会处理数据。 我正在YARN上使用它
SPARK_VERSION :2.3
//Reading json file from the directory
val static = spark.read.json("read directory")
//Reading schema
val dataSchema = static.schema
// COMMAND ----------
// in Scala
val streaming = spark.readStream.schema(dataSchema)
.option("maxFilesPerTrigger", 1).json("directory")
// in Scala grouping by "gt" column
val activityCounts = streaming.groupBy("gt").count()
// in Scala
val activityQuery = activityCounts.writeStream.queryName("activity_counts")
.format("memory").outputMode("complete")
.start()
activityQuery.awaitTermination()
--This is where it always gets stuck