标签: hadoop mapreduce hbase scoring minmax
我在Hbase表中有一些数据(数十亿)。我必须处理它们才能对存储的文档进行评分。可以在mapreduce范式中实现和应用的可能算法是什么?
我曾尝试部署MinMax算法,但由于其要求,所有数据在减速器阶段均移至单个节点(以查找最小值和最大值)。由于这个原因,读取了GC开销限制,这是完全可以预期的,因为单个节点不可能有那么多的内存来一次性处理所有数据。
在mapreduce范式中是否还有其他选项可用于hbase文档排名(评分)?