Spark Streaming:从Kafka写入PSQL表

时间:2016-01-17 17:44:42

标签: postgresql scala apache-spark-sql spark-streaming spark-dataframe

使用Spark-Streaming将KStka中的DStream数据写入Postgres等SQL表的正确方法是什么?

对于前。我会有这个,

 val directKafkaStream = KafkaUtils.createDirectStream[..]

使用forEachRDD,我会将数据映射到案例类。并且,做一些类似

的事情
SELECT * FROM table WHERE id = id_from_kafka_rdd; 

然后,根据此结果,我将进行一些其他比较,并决定是否使用Kafka的数据更新Postgres表。实际上,我可能必须在Postgres表上执行INSERT,UPDATE等操作。

这样做的正确方法是什么? Spark SQL,DataFrames还是JDBC连接器方法?我是Spark的初学者。

提前致谢。

0 个答案:

没有答案