In the doc it says that Stateful Operations like mapGroupsWithState in Structured Streaming supported only in Scala and Java but I do need statful capabilities in Python. What should I do?
答案 0 :(得分:1)
如果你坚持使用Pyspark -
在一个spark作业中执行预处理操作,然后将必要的“状态”流存储到文件接收器。在另一个作业中,读取此流并执行输出操作。这涉及额外的内存/磁盘/延迟开销。
请改用 updateStateByKey API。这将需要 DStreams 方法而不是结构化流媒体。
这两种方法都不是很好。如果您需要最新和最好的API功能,我建议您立即转换到Scala。随着项目的进展,您将反复遇到此问题。由于Spark是用Scala编写的,因此Python API总是落后。