应用错误收集

使用Pyspark SQL dataFrame消耗AWS Kinesis Stream

时间：2020-04-12 11:57:42

标签： amazon-web-services pyspark aws-glue amazon-kinesis

我需要先读取kinesis流（多个表）数据中的所有行，并将这些行分成不同的架构，然后再将它们写入Parque文件。

代码示例：

# To load stream data (Working fine)
val kinesisDF = spark.readStream.format("kinesis").option("streamName",evices").option("initialPosition","earliest").load()

我需要帮助来从上述代码中读取kinesisDF ['data']并读取每行的元数据，并根据不同的表模式对行进行聚类。

0 个答案:

没有答案