标签: hadoop mapreduce hbase
我想扫描整个Hbase表,并获取每天特定日期添加的记录数。 由于我们没有多个版本的列,我可以使用最新版本的时间戳(总是一个)。
一种方法是使用map reduce。其中map扫描所有行,并且我们发出时间戳(实际日期)和1作为键和值。然后是reducer,我会根据时间戳值来计算。方法类似于基于时间戳的组计数。
有更好的方法吗?实施后,此作业将每天运行,以验证其他模块的计数(Hive表行计数和solr文档计数)。我使用它作为识别任何错误的起点,在应用程序中不同集成点的流程中。