使用Spark-Streaming将KStka中的DStream数据写入Postgres等SQL表的正确方法是什么?
对于前。我会有这个,
val directKafkaStream = KafkaUtils.createDirectStream[..]
使用forEachRDD,我会将数据映射到案例类。并且,做一些类似
的事情SELECT * FROM table WHERE id = id_from_kafka_rdd;
然后,根据此结果,我将进行一些其他比较,并决定是否使用Kafka的数据更新Postgres表。实际上,我可能必须在Postgres表上执行INSERT,UPDATE等操作。
这样做的正确方法是什么? Spark SQL,DataFrames还是JDBC连接器方法?我是Spark的初学者。
提前致谢。