我们有一个用例,我们需要将大量销售数据放入Hadoop。然后用户群将使用此数据。用户将进行进一步的聚合和可以做总和,平均,计数等。
需要让查询快速返回结果。所以,我们正在探索hbase而不仅仅是hive。以下是样本数据。
日期商店发票项目销售费用 1月1日100 312312 43 24 1月1日3 101 344324 434 232 3月1日102 342344 34 23
我知道使用Hbase协处理器端点可以完成聚合,避免mapreduce job&低延迟。但是当用户只获取行的子集时,不确定如何实现它 假设,用户希望看到商品1和商品的销售总额。在上述情况2中,则结果应为77&查询应该在几秒内返回结果。 另一个用户可能希望看到商品2和商品的销售额。 3.感谢您的建议。