应用错误收集

背景

我的雇主正在逐步将我们的资源密集型ETL和后端处理逻辑从MySQL转移到Hadoop（dfs＆amp; hive）。目前，一切仍然有点小且易于管理（10个节点上20 TB），但我们打算逐步增加群集大小。

现在hadoop正在转向生产使用，它成为批量调度和在临时用户配置单元查询之间共享集群的更大问题，每小时M / R进程，我相信最终会使用一些hbase。担心的是，用户可能会进行一次天真的查询，这种查询可能会在不合理的时间内（例如4小时）运行，从而阻塞任务队列并产生潜在的基础架构负载不稳定性。

我公司的另一部分已经被Flume的不成熟所淹没，所以我的问题是，两个已知的调度程序（容量和展览会）的稳定性以及他们使用的赞助公司（Yahoo＆amp; Facebook）的使用情况除外别处？