UpdateStateByKey非常有用,但如果我想对所有现有密钥(不仅是这个RDD中的密钥)执行操作,该怎么办?
单词计数例如 - 有没有办法减少到目前为止看到的 所有 单词?
我在考虑为每个节点保留一个带有计数信息的静态类,并发出一个广播命令来执行某个操作,但是找不到广播到所有节点的功能。
答案 0 :(得分:1)
Spark无论如何都会对所有现有密钥执行updateStateByKey。
还要注意,如果updateStateByKey函数返回None(在Scala中),则键值对将被删除。