我想建立一个基于Hortonworks的大数据环境,但我并不熟悉所有优秀的工具。许多工具都非常相似,但魔鬼在于细节。也许你可以帮助我验证我的想法,所以我可以从一个基础开始。
我想将以下数据资源连接到hadoop: - Twitter Stream - 聊天 - 板 - ......
使用REST API,我想在每个流或所有流中搜索单个单词。还应该有选项来搜索整个数据集或仅在过去24小时内搜索。方法(UseCase)可以是:
想法是使用Flume,hbase和KNOX。但这么简单吗? Flume会将数据放入hbase,我可以通过REST获取我的信息。 KNOX将保护输入和输出连接。但我认为,我错过了很多,并没有像我提到的那么简单。
也许我需要为每个UseCase使用像Kafka这样的管道,或者每个流需要一个hbase实例。我对大量的工具感到震惊,我希望有人能给我一些提示,我需要哪些工具。一个小的架构概述和解释将是伟大的,所以我得到一个线索建立它。
谢谢,n3
答案 0 :(得分:0)
@ n3 - 对于有人快速为您解答,这是一个棘手的问题。我认为你所描述的当然是实现你的想法的一种方式。我可以告诉你,Knox API网关无疑是从集群外部访问HTTP资源的好方法。
您可能还想考虑: