使用Spark结构化流(pyspark)从Kafka Connect JSONConverter消息中提取“有效负载”(模式和有效负载)

时间:2020-10-11 10:25:40

标签: apache-spark pyspark apache-kafka spark-structured-streaming

我要完成的正是这个问题(Here);就我而言,我使用的是Python / Pyspark Not Scala。

我正在尝试提取Kafka connect消息的“有效载荷”部分,该部分也包括架构。

示例消息:

{"schema":{"type":"struct","name":"emp_table","fields":[{"field":"emp_id","type":"string"},{"field":"emp_name","type":"String"},{"field":"city","type":"string"},{"field":"emp_sal","type":"string"},{"field":"manager_name","type":"string"}]},"payload":{"emp_id":"1","emp_name":"abc","city":"NYK","emp_sal":"100000","manager_name":"xyz"}}

第1步-定义“有效负载”部分的架构:

payload_schema = StructType([
StructField("emp_id", StringType(), False),
StructField("emp_name", StringType(), True),
StructField("city", StringType(), True),
StructField("emp_sal", StringType(), True),
StructField("manager_name", StringType(), True)])

第2步-读卡夫卡:

df =spark.readStream.format("kafka")

第3步-从Kafka消息中获取消息值:

kafka_df = df.selectExpr("CAST(value AS STRING)")

第4步-仅提取“有效载荷”(我被困在这里):

    import pyspark.sql.functions as psf

    emp_df = kafka_df\
    .select(psf.from_json(psf.col('value'), payload_schema).alias("DF"))\
    .select("DF.*")

我被困在这部分中,因为在将其传递给from_json()函数之前,我不知道如何从JSON字符串中提取有效载荷。

注意:我知道我需要先定义整个消息的完整模式,然后才能在from_json()中使用它。我正在尝试仅获取“有效载荷” json字符串部分。

2 个答案:

答案 0 :(得分:1)

您可以使用SQL函数get_json_object

import pyspark.sql.functions as psf

kafka_df
  .select(psf.get_json_object(kafka_df['value'],"$.payload").alias('payload'))
  .select(psf.from_json(psf.col('payload'), payload_schema).alias("DF"))
  .select("DF.*")

或者,您需要为整个消息定义完整的架构,然后才能在from_json中使用它。

这意味着您的架构应如下所示:

full_schema = StructType([
  StructField("schema", StructType([
    StructField("type", StringType(), False),
    StructField("name", StringType(), False),
    StructField("fields", StructType([
      StructField("field", StringType(), False),
      StructField("type", StringType(), False)
    ]),
  StructField("payload", StructType([
    StructField("emp_id", StringType(), False),
    StructField("emp_name", StringType(), True),
    StructField("city", StringType(), True),
    StructField("emp_sal", StringType(), True),
    StructField("manager_name", StringType(), True)
  ])
])

请仔细检查此架构定义,因为我不确定如何在Python中定义架构中的数组,但我希望这个想法很清楚。

完成后,您可以通过以下方式选择有效负载字段

import pyspark.sql.functions as psf

    emp_df = kafka_df\
    .select(psf.from_json(psf.col('value'), full_schema).alias("DF"))\
    .select("DF.payload.*")

答案 1 :(得分:0)

由于某种原因,我错过了pyspark具有get_json_object()函数的功能。 在Mike发表评论后,我回到了documentation,发现了我想要的东西。

这是答案:

    kafka_df = df.selectExpr("CAST(value AS STRING)")
    payload_df = kafka_df.select(psf.get_json_object(kafka_df.value, "$.payload").alias("payload"))
    emp_df = payload_df.select(psf.from_json(psf.col('payload'), schema).alias("DF")).select("DF.*")