尽管控制台接收器工作正常,但在写入内存接收器时出现火花流问题

时间:2019-01-06 21:06:12

标签: apache-spark apache-spark-sql spark-structured-streaming

我正在尝试使用Spark结构化流(火花版本2.3)读取流数据时为我的项目读取JSON数据。 问题:由于我每次尝试都会将spark-shell挂起,因此无法从内存接收器查询数据。 如果我将格式更改为控制台接收器,则可以使用预期的逻辑。我已经查看了文档,但无法 找出我要去哪里。 如果我在spark webUI上进行检查,则会处理数据。 我正在YARN上使用它

SPARK_VERSION :2.3



//Reading json file from the directory
val static = spark.read.json("read directory")

//Reading schema
val dataSchema = static.schema


// COMMAND ----------

// in Scala
val streaming = spark.readStream.schema(dataSchema)
  .option("maxFilesPerTrigger", 1).json("directory")


// in Scala grouping by "gt" column

val activityCounts = streaming.groupBy("gt").count()

// in Scala

val activityQuery = activityCounts.writeStream.queryName("activity_counts")
.format("memory").outputMode("complete")
.start()

activityQuery.awaitTermination()

--This is where it always gets stuck

0 个答案:

没有答案