标签: apache-spark
假设我有两个RDD,A和B. B依赖于A.
如果A更改为新的RDD,A2,它仅在少量元素中与A不同(例如,可以使用Spark Streaming计算A2)。
如果我理解正确,Spark总是重新计算每个元素B,因为父RDD已从A更改为A2,即使B中只有少数元素应该更改。有没有办法在不触及每个元素的情况下重新计算B?