我有一个在单个HBase行(Result
)上运行的Java函数,它需要Result
作为输入并输出byte[]
。我想在10K-100K HBase行上运行此函数并收集结果。我有List<byte[]>
这是我想要运行此函数的行,它们均匀分布在表的所有区域。我想在这些限制下这样做:
实现这一目标的最佳方法是什么?我想到了这些选择:
List<byte[]>
个rowkeys上批量运行协处理器并收集结果?工作是否会由集群并行处理?Get
上执行批量List<byte[]>
- Get
将由所有区域服务器并行处理,并且可以运行自定义逻辑,但这似乎是一个黑客,我不确定自定义过滤器可以返回该行的其中一列中不存在的数据。