我的hadoop架构的改进建议

时间:2016-05-20 09:41:26

标签: hadoop architecture hortonworks-data-platform

我想建立一个基于Hortonworks的大数据环境,但我并不熟悉所有优秀的工具。许多工具都非常相似,但魔鬼在于细节。也许你可以帮助我验证我的想法,所以我可以从一个基础开始。

我想将以下数据资源连接到hadoop:   - Twitter Stream   - 聊天   - 板   - ......

使用REST API,我想在每个流或所有流中搜索单个单词。还应该有选项来搜索整个数据集或仅在过去24小时内搜索。方法(UseCase)可以是:

  • findwordintwitter
  • findwordinchat
  • ...
  • findwordintwitter24h
  • findwordinchat24h
  • ...
  • findwordinallstreams
  • findwordinallstreams24h

想法是使用Flume,hbase和KNOX。但这么简单吗? Flume会将数据放入hbase,我可以通过REST获取我的信息。 KNOX将保护输入和输出连接。但我认为,我错过了很多,并没有像我提到的那么简单。

也许我需要为每个UseCase使用像Kafka这样的管道,或者每个流需要一个hbase实例。我对大量的工具感到震惊,我希望有人能给我一些提示,我需要哪些工具。一个小的架构概述和解释将是伟大的,所以我得到一个线索建立它。

谢谢,n3

1 个答案:

答案 0 :(得分:0)

@ n3 - 对于有人快速为您解答,这是一个棘手的问题。我认为你所描述的当然是实现你的想法的一种方式。我可以告诉你,Knox API网关无疑是从集群外部访问HTTP资源的好方法。

您可能还想考虑:

  • Nifi - 用于摄取推特流等
  • 风暴 - 使用管道进行类似的摄取
  • kafka - 用于摄取流的可扩展性
  • solr / solrcloud - 用于搜索功能