有没有人有机会同时工作?我需要建立一个框架来移动数据。基本上,我们有点击流数据作为文本文件。这些数据需要从app-servers到HDFS,然后在归档后移动到S3。
我需要帮助选择Flume和Scribe。哪一个在可管理性,设置和更容易定制方面更好?
答案 0 :(得分:2)
查看已发布的答案here
我会引用答案:
Flume允许您从a配置Flume安装 中心点,无需ssh到每台机器,更新一个 配置变量并重启一个或多个守护进程。你可以开始了, 在任何计算机上停止,创建,删除和重新配置逻辑节点 使用Flume从网络中的任何命令行运行Flume 罐子可用。
Flume还具有集中的活跃度监控功能。我们听说过 Scribe的几个故事过程默默地失败,但是说谎 直到Scribe安装的其余部分才被发现数天 在增加的负荷下开始吱吱作响。 Flume让你看到了 所有逻辑节点在一个地方的健康状况(请注意,这是 与机器活性监测不同;通常机器停留 这个过程可能会失败)。
Flume支持三种不同类型的可靠性保证, 允许您在资源使用和资源之间进行权衡 可靠性。特别是,Flume支持完全确认的可靠性, 保证所有事件最终都会成功 通过事件流程。
- 醇>
Flume也非常易于扩展 - 编写自己的内容非常简单 源或汇,并将大多数系统与Flume集成。如果滚动 你自己是不切实际的,拥有你自己的通常非常简单 应用程序以Flume可以理解的形式输出事件(Flume 例如,可以运行Unix进程,因此如果可以使用shell脚本 得到你的数据,你是金色的)。
这并不是使用Flume的详尽清单 - 我没有 触及使用装饰器进行轻量级转换或 元数据提取,配置语言,运行能力 单个Flume过程中的几个逻辑节点,自动分组 在HDFS中滚动日志文件...有很多关于Flume的信息 我们期待与大家分享。
对我而言,关键不同在于Cloudera积极支持 水槽。虽然我一般都相信Facebook会保持开放态度 源项目,Cloudera的业务是围绕提供支持 对于像这样的工具,所以我相信Flume会长期存在 更好的支持。我想尽量减少我必须考虑的时间 这个特殊的问题。那就是说,到目前为止,我已经有很多烦人了 Flume在其抽象或者抽象中有点复杂的问题 正如你在1.0之前所期望的那样,它的实现方式 技术。如果Asana还没有进入测试阶段,我可能会选择 划线