标签: apache-spark count hbase rdd bigdata
我使用newAPIHadoopRDD()方法将HBase记录加载到RDD并执行简单的计数作业。
然而,这项计算工作需要的时间远远超出我的想象。我检查了代码,我想可能是在HBase中,一个列族只是有太多的数据,而当我将记录加载到RDD时,这么多数据可能会导致执行程序内存溢出。
这可能导致这个问题吗?