应用错误收集

在Hadoop面前提供服务

时间：2014-09-02 21:59:57

标签： web-services hadoop architecture oozie

我想在Hadoop前面公开一个Web服务，用于将数据转发到Hadoop生态系统。我在Hadoop中有两个分支，速度较慢，可以定期处理整个数据，而且速度快，可以对每个输入进行一些计算，并将数据存储为定期作业。但是用户没有看到较慢的分支，并且感觉只有快速的工作完成，而不知道在时间上聚合的数据上运行的较慢的作业。

如何最好地组织我的架构？我是Hadoop架构的新手，我读到了Oozie，感觉它可以帮助我达到某种程度。但我不知道如何将服务与Hadoop连接，如何通过服务传递数据，因为Hadoop主要在文件上工作，而且是分布式系统。

数据应以流媒体方式进入系统。应该有＆＃34;实时＆＃34; branch，与处理系统的各个值一起使用，并且它们也会被累积用于定期批处理。

任何帮助都会很棒，谢谢。

1 个答案:

答案 0 :(得分：0)

您可能需要查看hue。这提供了一组Web前端：其中一个用于HDFS（文件系统），您可以在其中上传文件;有办法跟踪工作。

如果您更经常地自动将文件放入HDFS，请进一步详细说明您的问题：最初的数据在哪里以及什么是数据（日志？db？gzip压缩的csv-s？），应该触发检索/

人们也可以使用API来处理文件系统和跟踪作业。

至于oozie关心的问题，这更像是一个编排工具，用它来将相关工作组织到工作流程中。