我有一系列map-reduce作业来处理用户数据(使用Cascading框架实现),我想跟踪很多细粒度的统计信息(我可以有100到1000个用户和每个用户20个统计信息,所以,总共可能在5000到10,000之间的统计数据)。 我想使用map-reduce计数器来构建这些统计信息,因为在代码中使用它们非常方便,但map-reduce计数器的数量有限(默认为120),并且根据这篇文章:{ {3}} 如果我有超过20/50的自定义计数器,我不应该使用它们。
问题:是否有正确的方法可以使用类似计数器的模式在此map-reduce上下文中跟踪我的统计信息?通过类似计数器,我的意思是,可以访问我的代码中的所有计数器,并能够在需要的地方增加它们。
感谢提前 注册
答案 0 :(得分:0)
如果您的统计数据只是计数而且它们仅在并行阶段递增,您可以为每个实例单独收集它们,然后将它们相加(减少)。实际上,这就是MapReduce的整体思路。