Spark - 集群中内置的rdd.count()函数是否可靠?

时间:2016-08-05 00:41:01

标签: apache-spark pyspark

我目前正在编写一个使用rdd.count()函数的简单spark脚本,当我测试它在本地运行时效果很好。

将代码部署到多机群集时,它是否会继续工作,或者此功能是否容易受到分布式计算问题的影响?

1 个答案:

答案 0 :(得分:0)

它就像MapReduce字数一样......它分配数据的分区,并对数字求和。

因此,要回答这个问题,它应该在分布式环境中可以正常工作。