我有一个数据源,一直生成大量数据, 我把这些数据定期发送到我的hadoop集群。
我想每隔X分钟分析一次这个数据,但我不想每次都对所有数据执行分析, 只想花费最后x分钟并分析它......
我正在将数据实时放入hbase, 获取最后x分钟并对此数据执行mr作业的最佳方法是什么?
答案 0 :(得分:1)
您是否考虑过使用OOZIE?这是一个工作流协调系统。它具有协调器的概念,您可以将其配置为定期运行Map Reduce作业。
然后,您可以使用它来运行使用HBase作为输入的M / R作业。