应用错误收集

为什么一个RDD计数工作需要这么多时间

时间：2016-07-19 13:24:42

标签： apache-spark count hbase rdd bigdata

我使用newAPIHadoopRDD（）方法将HBase记录加载到RDD并执行简单的计数作业。

然而，这项计算工作需要的时间远远超出我的想象。我检查了代码，我想可能是在HBase中，一个列族只是有太多的数据，而当我将记录加载到RDD时，这么多数据可能会导致执行程序内存溢出。

这可能导致这个问题吗？

0 个答案:

没有答案