从Spark结构流中反序列化Avro

时间:2019-03-05 19:27:09

标签: python apache-spark pyspark avro spark-structured-streaming

我正在尝试从已经序列化为Avro的Kafka主题中使用内容,并且需要弄清楚从Spark Structure Streaming应用程序中使用时如何反序列化它。

请注意,我需要使用Python的解决方案

spark = SparkSession\
    .builder\
    .appName("De-Serializing ")\
    .getOrCreate()

data = spark.readStream\
    .format("kafka")\
    .option("kafka.bootstrap.servers", "kafkahost:9092")\
    .option("subscribe", "my_topic")\
    .option("startingOffsets", "earliest")\
    .load()

# Do Stuff here

query = data.writeStream\
    .outputMode("append")\
    .format("console")\
    .option("truncate", "false")\
    .trigger(processingTime="5 seconds")\
    .start()\
    .awaitTermination()

有人可以帮助我吗?

0 个答案:

没有答案