如何定期分析Hadoop上的数据

时间:2012-06-18 13:09:09

标签: hadoop mapreduce hbase hive bigdata

我有一个数据源,一直生成大量数据, 我把这些数据定期发送到我的hadoop集群。

我想每隔X分钟分析一次这个数据,但我不想每次都对所有数据执行分析, 只想花费最后x分钟并分析它......

我正在将数据实时放入hbase, 获取最后x分钟并对此数据执行mr作业的最佳方法是什么?

1 个答案:

答案 0 :(得分:1)

您是否考虑过使用OOZIE?这是一个工作流协调系统。它具有协调器的概念,您可以将其配置为定期运行Map Reduce作业。

然后,您可以使用它来运行使用HBase作为输入的M / R作业。