是否有现有的批处理日志文件聚合解决方案?

时间:2010-03-01 20:33:48

标签: python export aggregation logfiles hdfs

我希望从多个节点导出日志文件(在我的情况下是apache访问和错误日​​志)并批量聚合这些数据,作为预定作业。我已经看到了多种与流数据一起使用的解决方案(即思考抄写)。我想要一个工具,让我可以灵活地定义目的地。这个要求来自于我想使用HDFS作为目的地。

我无法找到批量支持此功能的工具。在重新创建轮子之前,我想向StackOverflow社区询问他们的输入。

如果python中已经存在一个更好的解决方案。

4 个答案:

答案 0 :(得分:1)

我们使用http://mergelog.sourceforge.net/合并我们所有的apache日志..

答案 1 :(得分:0)

看看Zomhg,它是使用Hbase和Hdfs的日志文件的聚合/报告系统:http://github.com/zohmg/zohmg

答案 2 :(得分:0)

Scribe可以满足您的要求,有一个版本(link)的scribe可以聚合来自多个来源的日志,并且在达到给定的阈值后,它将所有内容存储在HDFS中。我用过它并且效果很好。编译非常复杂,所以如果您有任何问题,请提出问题。

答案 3 :(得分:-1)

PiCloud可能会有所帮助。

  

PiCloud平台让您可以自由地开发算法   和软件没有时间进入所有的管道   配置,管理和维护服务器。