Structured Streaming Python API

时间:2018-04-12 08:46:29

标签: spark-streaming

In the doc it says that Stateful Operations like mapGroupsWithState in Structured Streaming supported only in Scala and Java but I do need statful capabilities in Python. What should I do?

1 个答案:

答案 0 :(得分:1)

如果你坚持使用Pyspark -

  1. 在一个spark作业中执行预处理操作,然后将必要的“状态”流存储到文件接收器。在另一个作业中,读取此流并执行输出操作。这涉及额外的内存/磁盘/延迟开销。

  2. 请改用 updateStateByKey API。这将需要 DStreams 方法而不是结构化流媒体

  3. 这两种方法都不是很好。如果您需要最新和最好的API功能,我建议您立即转换到Scala。随着项目的进展,您将反复遇到此问题。由于Spark是用Scala编写的,因此Python API总是落后。