标签: apache-spark pyspark
我目前正在编写一个使用rdd.count()函数的简单spark脚本,当我测试它在本地运行时效果很好。
将代码部署到多机群集时,它是否会继续工作,或者此功能是否容易受到分布式计算问题的影响?
答案 0 :(得分:0)
它就像MapReduce字数一样......它分配数据的分区,并对数字求和。
因此,要回答这个问题,它应该在分布式环境中可以正常工作。