计算Spark结构化流中写入Hive表的记录数

时间:2018-07-18 15:18:01

标签: apache-spark spark-structured-streaming

我有这个代码。

val query = event_stream
    .selectExpr("CAST(key AS STRING)", "CAST(value AS .select(from_json($"value", schema_simple).as("data"))
    .select("data.*")
    .writeStream
    .outputMode("append")
    .format("orc")
    .option("path", "hdfs:***********")
  //.option("path", "/tmp/orc")
    .option("checkpointLocation", "hdfs:**********/")
    .start()

println("###############" + query.isActive)
query.awaitTermination()

我想计算插入到Hive中的记录数。

有哪些可用选项?以及如何做到?

我找到了SparkEventListener TaskEnd。我不确定它是否适用于流媒体源。我尝试过了,它目前还无法正常工作。

我认为一种方法是制作hiveReader,然后计算流中的记录数。

0 个答案:

没有答案