我想根据来自Kafka的JSON数据推断出安全的模式。
df = spark.readStream.format("kafka").option("kafka.bootstrap.servers", "localhost:9092").option("subscribe", "input").option("auto.offset.reset", "latest").load()
jsonDF = df.selectExpr("CAST(value AS STRING) jsonData")
stackoverflow有两种解决方案:
我知道模式的推断可能很危险,但是我正在开发的spark应用程序具有多个具有不同模式的源(多列)。有没有一种方法可以基于json数据中的列创建模式,并强制将它们强制转换为String
以防止数据丢失。