无法在Spark结构化流中转换Kafka Json数据

时间:2019-03-26 08:44:58

标签: apache-spark pyspark apache-kafka apache-spark-sql spark-structured-streaming

我正在尝试获取Kafka消息,并使用Spark独立进行处理。 Kafka将数据存储为json格式。我可以获取Kafka消息,但无法使用定义的模式解析json数据。

当我运行bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic my_kafka_topic --from-beginning命令以查看kafka主题中的kafka消息时,其输出如下:

"{\"timestamp\":1553792312117,\"values\":[{\"id\":\"Simulation.Simulator.Temperature\",\"v\":21,\"q\":true,\"t\":1553792311686}]}"
"{\"timestamp\":1553792317117,\"values\":[{\"id\":\"Simulation.Simulator.Temperature\",\"v\":22,\"q\":true,\"t\":1553792316688}]}"

我可以使用Spark中的此代码块成功获取此数据:

df = spark \
.readStream \
.format("kafka") \
.option("kafka.bootstrap.servers", "localhost:9092") \
.option("subscribe", "my_kafka_topic") \
.load() \
.select(col("value").cast("string"))

架构如下:

df.printSchema()

root
 |-- value: string (nullable = true)

然后将此数据帧写入控制台,并打印kafka消息:

Batch: 9
-------------------------------------------
+--------------------+
|               value|
+--------------------+
|"{\"timestamp\":1...|
+--------------------+

但是我想解析json数据以定义架构和我尝试执行的代码块:

schema = StructType([ StructField("timestamp", LongType(), False), StructField("values", ArrayType( StructType([ StructField("id", StringType(), True), StructField("v", IntegerType(), False), StructField("q", BooleanType(), False), StructField("t", LongType(), False) ]), True ), True) ])

parsed = spark \
  .readStream \
  .format("kafka") \
  .option("kafka.bootstrap.servers", "localhost:9092") \
  .option("subscribe", "my_kafka_topic") \
  .load() \
  .select(from_json(col("value").cast("string"), schema).alias("opc"))

还有parsed数据框的架构:

parsed.printSchema()
root
  |-- opc: struct (nullable = true)
  |    |-- timestamp: string (nullable = true)
  |    |-- values: struct (nullable = true)
  |    |    |-- id: string (nullable = true)
  |    |    |-- v: integer (nullable = true)
  |    |    |-- q: boolean (nullable = true)
  |    |    |-- t: string (nullable = true)

这些代码块运行无错误。但是当我想将parsed数据帧写入控制台时:

query = parsed\
   .writeStream\
   .format("console")\
   .start()

query.awaitTermination()

它正在控制台中这样写null

+----+
| opc|
+----+
|null|
+----+

因此,解析json数据似乎存在问题,但无法弄清楚。

你能告诉我哪里出问题了吗?

1 个答案:

答案 0 :(得分:0)

对于您的情况,该架构似乎不正确,请尝试应用下一个:

schema = StructType([ 
StructField("timestamp", LongType(), False), 
StructField("values", ArrayType(
    StructType([StructField("id", StringType(), True), 
    StructField("v", IntegerType(), False), 
    StructField("q", BooleanType(), False), 
    StructField("t", LongType(), False)]), True), True)])

还请记住,inferSchema选项运行得很好,因此您可以让Spark发现该架构并将其保存。

另一个问题是您的json数据具有前后双引号",还包含\那些使无效JSON的内容,从而阻止了Spark解析消息。

要删除无效字符,您的代码应作如下修改:

parsed = spark \
  .readStream \
  .format("kafka") \
  .option("kafka.bootstrap.servers", "localhost:9092") \
  .option("subscribe", "my_kafka_topic") \
  .load() \
  .withColumn("value", regexp_replace(col("value").cast("string"), "\\\\", "")) \
  .withColumn("value", regexp_replace(col("value"), "^\"|\"$", "")) \
  .select(from_json(col("value"), schema).alias("opc"))

现在您的输出应该是:

+------------------------------------------------------------------------------------------------------------------+
|value                                                                                                             |
+------------------------------------------------------------------------------------------------------------------+
|{"timestamp":1553588718638,"values":[{"id":"Simulation.Simulator.Temperature","v":26,"q":true,"t":1553588717036}]}|
+------------------------------------------------------------------------------------------------------------------+

祝你好运!