使用spark版本2.2.0中的python(pyspark)从mqtt获取数据流

时间:2017-09-06 17:05:08

标签: python pyspark spark-streaming mqtt

我在spark的POM.xml中添加了依赖项,在以下链接中给出:

http://bahir.apache.org/docs/spark/current/spark-sql-streaming-mqtt/

再次使用maven建立火花。但正如我们所看到的,它只显示Java和Scala支持从mqtt获取数据。

我想从 python中获取mqtt的流数据。 在早期版本中,我们有一个pyspark.streaming.mqtt。 在 spark 2.2.0 pyspark 中有类似之处。 我正在为mqtt经纪人使用mosquitto。

1 个答案:

答案 0 :(得分:0)

对于PySpark,您可以使用Structured Streaming绑定(您必须包含Bahir jar):

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()  # type: SparkSession
(spark
    .readStream
    .format("org.apache.bahir.sql.streaming.mqtt.MQTTStreamSourceProvider")
    .load("tcp://{}".format(broker_uri)))