我开始开发我的第一个Spark Streaming集群,我想知道它是否考虑了某种类型的手动分区'工人之间的任务。
据我所知 - 如果我错了,请纠正我 - 一个RDD被拆分为分区(任务),每个分区都去一个不同的工作者,基本上是在 fair 模式(顺便说一句,甚至是可调的?)。
现在,在其他SPS(如Apache Storm)中,有一些称为字段分组的东西,它将流相应地分配到特定字段(即密钥),以便相等的密钥意味着相同暗示同一个算子的任务。
Spark Streaming中是否有类似的东西(即根据接近元组键的东西在工作者之间划分RDD)? 我问,因为我可以使用这种方法,但我对这与Spark的哲学本身一致有疑问。
欢迎任何提示或澄清! : - )
度过美好的一天!
编辑:方法updateStateByKey()
与此有什么关系?像updateStateByKey(updateFunc, new HashPartitioner(...))
?