使用Pyspark SQL dataFrame消耗AWS Kinesis Stream

时间:2020-04-12 11:57:42

标签: amazon-web-services pyspark aws-glue amazon-kinesis

我需要先读取kinesis流(多个表)数据中的所有行,并将这些行分成不同的架构,然后再将它们写入Parque文件。

代码示例:

# To load stream data (Working fine)
val kinesisDF = spark.readStream.format("kinesis").option("streamName",evices").option("initialPosition","earliest").load()

我需要帮助来从上述代码中读取kinesisDF ['data']并读取每行的元数据,并根据不同的表模式对行进行聚类。

0 个答案:

没有答案