我有这个代码。
val query = event_stream
.selectExpr("CAST(key AS STRING)", "CAST(value AS .select(from_json($"value", schema_simple).as("data"))
.select("data.*")
.writeStream
.outputMode("append")
.format("orc")
.option("path", "hdfs:***********")
//.option("path", "/tmp/orc")
.option("checkpointLocation", "hdfs:**********/")
.start()
println("###############" + query.isActive)
query.awaitTermination()
我想计算插入到Hive中的记录数。
有哪些可用选项?以及如何做到?
我找到了SparkEventListener
TaskEnd
。我不确定它是否适用于流媒体源。我尝试过了,它目前还无法正常工作。
我认为一种方法是制作hiveReader
,然后计算流中的记录数。