我在spark的POM.xml中添加了依赖项,在以下链接中给出:
http://bahir.apache.org/docs/spark/current/spark-sql-streaming-mqtt/
再次使用maven建立火花。但正如我们所看到的,它只显示Java和Scala支持从mqtt获取数据。
我想从 python中获取mqtt的流数据。 在早期版本中,我们有一个pyspark.streaming.mqtt。 在 spark 2.2.0 pyspark 中有类似之处。 我正在为mqtt经纪人使用mosquitto。
答案 0 :(得分:0)
对于PySpark,您可以使用Structured Streaming绑定(您必须包含Bahir jar):
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate() # type: SparkSession
(spark
.readStream
.format("org.apache.bahir.sql.streaming.mqtt.MQTTStreamSourceProvider")
.load("tcp://{}".format(broker_uri)))