应用错误收集

我想建立一个基于Hortonworks的大数据环境，但我并不熟悉所有优秀的工具。许多工具都非常相似，但魔鬼在于细节。也许你可以帮助我验证我的想法，所以我可以从一个基础开始。

我想将以下数据资源连接到hadoop： - Twitter Stream - 聊天 - 板 - ......

使用REST API，我想在每个流或所有流中搜索单个单词。还应该有选项来搜索整个数据集或仅在过去24小时内搜索。方法（UseCase）可以是：

想法是使用Flume，hbase和KNOX。但这么简单吗？ Flume会将数据放入hbase，我可以通过REST获取我的信息。 KNOX将保护输入和输出连接。但我认为，我错过了很多，并没有像我提到的那么简单。

也许我需要为每个UseCase使用像Kafka这样的管道，或者每个流需要一个hbase实例。我对大量的工具感到震惊，我希望有人能给我一些提示，我需要哪些工具。一个小的架构概述和解释将是伟大的，所以我得到一个线索建立它。

谢谢，n3