我想在Hadoop前面公开一个Web服务,用于将数据转发到Hadoop生态系统。我在Hadoop中有两个分支,速度较慢,可以定期处理整个数据,而且速度快,可以对每个输入进行一些计算,并将数据存储为定期作业。但是用户没有看到较慢的分支,并且感觉只有快速的工作完成,而不知道在时间上聚合的数据上运行的较慢的作业。
如何最好地组织我的架构?我是Hadoop架构的新手,我读到了Oozie,感觉它可以帮助我达到某种程度。但我不知道如何将服务与Hadoop连接,如何通过服务传递数据,因为Hadoop主要在文件上工作,而且是分布式系统。
数据应以流媒体方式进入系统。应该有"实时" branch,与处理系统的各个值一起使用,并且它们也会被累积用于定期批处理。
任何帮助都会很棒,谢谢。
答案 0 :(得分:0)
您可能需要查看hue。这提供了一组Web前端:其中一个用于HDFS(文件系统),您可以在其中上传文件;有办法跟踪工作。
如果您更经常地自动将文件放入HDFS,请进一步详细说明您的问题:最初的数据在哪里以及什么是数据(日志?db?gzip压缩的csv-s?),应该触发检索/
人们也可以使用API来处理文件系统和跟踪作业。
至于oozie关心的问题,这更像是一个编排工具,用它来将相关工作组织到工作流程中。