标签: apache-spark
我最近学习了火花,并对转型和行动操作感到困惑。我阅读了火花文档和一些关于spark的书籍,我知道动作将导致在集群中执行spark工作,而转换则不会。但是没有说明spark的api doc中列出的rdd的操作是转换还是动作操作。
例如,reduce是一个动作,另一方面,reduceByKey是一个转换!为什么会这样呢。
答案 0 :(得分:10)
您可以通过查看返回类型来判断。操作将返回非RDD类型(通常是您的存储值类型),而转换将返回RDD[Type],因为它仍然只是您计算的表示。
RDD[Type]