应用错误收集

我有这个代码。

val query = event_stream
    .selectExpr("CAST(key AS STRING)", "CAST(value AS .select(from_json($"value", schema_simple).as("data"))
    .select("data.*")
    .writeStream
    .outputMode("append")
    .format("orc")
    .option("path", "hdfs:***********")
  //.option("path", "/tmp/orc")
    .option("checkpointLocation", "hdfs:**********/")
    .start()

println("###############" + query.isActive)
query.awaitTermination()

我想计算插入到Hive中的记录数。

有哪些可用选项？以及如何做到？

我找到了SparkEventListener TaskEnd。我不确定它是否适用于流媒体源。我尝试过了，它目前还无法正常工作。

我认为一种方法是制作hiveReader，然后计算流中的记录数。

计算Spark结构化流中写入Hive表的记录数

0 个答案: