Cloudera的Flume vs Facebook的Scribe

时间:2011-09-24 18:21:05

标签: logging flume scribe-server

有没有人有机会同时工作?我需要建立一个框架来移动数据。基本上,我们有点击流数据作为文本文件。这些数据需要从app-servers到HDFS,然后在归档后移动到S3。

我需要帮助选择Flume和Scribe。哪一个在可管理性,设置和更容易定制方面更好?

1 个答案:

答案 0 :(得分:2)

查看已发布的答案here

我会引用答案:

  
      
  1. Flume允许您从a配置Flume安装   中心点,无需ssh到每台机器,更新一个   配置变量并重启一个或多个守护进程。你可以开始了,   在任何计算机上停止,创建,删除和重新配置逻辑节点   使用Flume从网络中的任何命令行运行Flume   罐子可用。

  2.   
  3. Flume还具有集中的活跃度监控功能。我们听说过   Scribe的几个故事过程默默地失败,但是说谎   直到Scribe安装的其余部分才被发现数天   在增加的负荷下开始吱吱作响。 Flume让你看到了   所有逻辑节点在一个地方的健康状况(请注意,这是   与机器活性监测不同;通常机器停留   这个过程可能会失败)。

  4.   
  5. Flume支持三种不同类型的可靠性保证,   允许您在资源使用和资源之间进行权衡   可靠性。特别是,Flume支持完全确认的可靠性,   保证所有事件最终都会成功   通过事件流程。

  6.   
  7. Flume也非常易于扩展 - 编写自己的内容非常简单   源或汇,并将大多数系统与Flume集成。如果滚动   你自己是不切实际的,拥有你自己的通常非常简单   应用程序以Flume可以理解的形式输出事件(Flume   例如,可以运行Unix进程,因此如果可以使用shell脚本   得到你的数据,你是金色的)。

  8.         

    这并不是使用Flume的详尽清单 - 我没有   触及使用装饰器进行轻量级转换或   元数据提取,配置语言,运行能力   单个Flume过程中的几个逻辑节点,自动分组   在HDFS中滚动日志文件...有很多关于Flume的信息   我们期待与大家分享。

         

    对我而言,关键不同在于Cloudera积极支持   水槽。虽然我一般都相信Facebook会保持开放态度   源项目,Cloudera的业务是围绕提供支持   对于像这样的工具,所以我相信Flume会长期存在   更好的支持。我想尽量减少我必须考虑的时间   这个特殊的问题。那就是说,到目前为止,我已经有很多烦人了   Flume在其抽象或者抽象中有点复杂的问题   正如你在1.0之前所期望的那样,它的实现方式   技术。如果Asana还没有进入测试阶段,我可能会选择   划线