应用错误收集

Spark - 集群中内置的rdd.count（）函数是否可靠？

时间：2016-08-05 00:41:01

标签： apache-spark pyspark

我目前正在编写一个使用rdd.count（）函数的简单spark脚本，当我测试它在本地运行时效果很好。

将代码部署到多机群集时，它是否会继续工作，或者此功能是否容易受到分布式计算问题的影响？

1 个答案:

答案 0 :(得分：0)

它就像MapReduce字数一样......它分配数据的分区，并对数字求和。

因此，要回答这个问题，它应该在分布式环境中可以正常工作。