updatestatebykey - Pyspark - Spark流媒体

时间:2017-12-21 03:55:16

标签: pyspark spark-streaming

我是新手来激发流媒体。试图了解UpdateStateByKey操作的重要性?有什么用?存储仲裁国家的必要性是什么?它是如何工作的?

1 个答案:

答案 0 :(得分:1)

updateStateByKey方法允许您根据来自流的数据创建状态信息。

例如 - 如果您有一个天气传感器以格式(sensor_id, (timestamp, values))发送给定sensor_id的当前状态(如风速,温度),您可以使用updateStateByKey构建表示当前天气状态的流传感器,如[(sensor_1, current_weather_data), (sensor_2, current_weather_data)]

然后您可以将流加入其他数据,即使传感器在最后一个窗口中没有发送其信息,状态仍将包含最后一个值。我在this notebook中使用了这种方法。