标签: apache-spark spark-streaming spark-structured-streaming
我的用例是 1.从卡夫卡读取数据,进行解析并将其作为ORC文件写入HDFS。 2.在数据中的日期列上,在Hive表上动态运行变更表查询。
我能够轻松完成步骤1(写入HDFS) 但是对于步骤2(更改表查询),我尝试了foreachwriter。但是,由于我的集群非常复杂,因此很难建立JDBC。我尝试设置所有配置,但仍然遇到foreachwriter问题。
我还要确保所有微批次的步骤2应该在步骤1之后。我不确定在这种情况下火花结构化流的行为如何?
还有其他方法可以实现步骤2吗?
谢谢。