标签: apache-spark pyspark spark-structured-streaming
我对此进行了一些研究,发现了answer一般的Spark应用程序。但是,在结构化流式传输中,您无法在2个流式数据帧之间进行连接(因此无法进行自联接),也无法使用排序功能。那么有没有办法获得每个组的最新条目? (我在Spark 2.2上)
更新:假设数据框行已经按时间排序,我们可以使用groupBy然后agg使用pyspark.sql.functions.last为每个必需行使用最后一个条目{1}}功能。
groupBy
agg
pyspark.sql.functions.last