pyspark（spark 2.2）将流数据帧写入Mysql

时间：2018-10-10 21:32:38

标签： apache-spark pyspark

我正在编写一个结构化的流应用程序，该应用程序处理来自Kafka源的数据。我能够将最终处理的数据帧写入控制台，但是我正在努力将该数据帧写入mysql db。

在通过pyspark进行结构化流式传输时，是否可以将数据帧写入mysql？

我的应用程序的草图如下：

1。创建代表来自kafka的输入行流的DataSet

df = spark \
.readStream \
.format('kafka') \
.option('kafka.bootstrap.servers', brokers) \
.option(subscribe_type, topic) \
.option('includeTimestamp', 'true') \
.load()

2。在数据框df中执行ETL。

3。将df写入控制台：

query = df \
.writeStream \
.format('console') \
.option('truncate', 'false') \
.trigger(processingTime='5 seconds') \
.start()

4。将该df导出到我们的mysql接收器。

您能给我一个例子来做第4步吗？

非常感谢。

0 个答案:

没有答案