Spark广播到所有键 - updateStateByKey

时间:2015-07-03 10:37:35

标签: apache-spark spark-streaming

UpdateStateByKey非常有用,但如果我想对所有现有密钥(不仅是这个RDD中的密钥)执行操作,该怎么办?

单词计数例如 - 有没有办法减少到目前为止看到的 所有 单词?

我在考虑为每个节点保留一个带有计数信息的静态类,并发出一个广播命令来执行某个操作,但是找不到广播到所有节点的功能。

1 个答案:

答案 0 :(得分:1)

Spark无论如何都会对所有现有密钥执行updateStateByKey。

还要注意,如果updateStateByKey函数返回None(在Scala中),则键值对将被删除。