我想使用Hadoop来处理每n分钟生成的输入文件。我该如何处理这个问题?例如,我每10分钟收到一次美国城市的温度测量,我想计算每周和每月的平均温度。
PS:到目前为止,我已经考虑过Apache Flume来获取读数。这将从多个服务器获取数据并定期将数据写入HDFS。从那里我可以阅读和处理它们。但是我怎样才能避免一次又一次地处理相同的文件?
答案 0 :(得分:0)
您应该考虑像Storm这样的大数据流处理平台(我非常熟悉,但也有其他人),它们可能更适合您提到的各种聚合和指标。
但是,无论哪种方式,您都会以一种形式实现具有整套处理数据的内容,这样可以非常轻松地应用刚刚收集的数据的增量来为您提供最新的指标。此合并的另一个输出是一组新数据,您将应用下一小时的数据。等等。