Pyspark结构化流Json架构

时间:2020-04-18 05:29:19

标签: python-2.7 pyspark pyspark-sql jsonschema pyspark-dataframes

如何创建Spark结构化流所需的json模式? 试图使用“ from_json”生成,但是与pyspark不兼容。

我正在使用Spark版本2.3.0

1 个答案:

答案 0 :(得分:0)

方法from_json要求您提供模式StructType([StructField(...)])作为其第二个参数。为您的数据流创建一个StructType模式,并将其作为from_json(datastream,your_msg_schema)传递给函数,您应该会很高兴。

如果您在上述情况下需要任何具体帮助,请分享您尝试过的代码。