将数据管道化为Hadoop MR / Pig中的作业

时间:2014-12-16 13:58:18

标签: hadoop mapreduce oozie cascading

我在HDFS中的数据上运行了三种不同类型的作业。 这三个作业必须在当前场景中单独运行。 现在,we want to run the three jobs together by piping the OUTPUT data of one job to the other job without writing the data in HDFS to improve the architecture and overall performance.

欢迎任何有关这种情况的建议。

PS:Oozie不适合工作流程。由于可伸缩性问题,也排除了协议框架。 感谢

3 个答案:

答案 0 :(得分:1)

Hadoop在M / R步骤之后固有地写入存储(例如HDFS)。如果你想要记忆中的某些东西,也许你需要研究Spark.

之类的东西

答案 1 :(得分:0)

Oozie帮助将多个hadoop作业(mapreduce,pig,hive,java等)链接在一起,形成数据管道应用程序。内置支持调度与hadoop相关的功能,使得dev的生活更容易管理复杂的hadoop相关工作。

然而,Oozie不一定会消除HDFS或其他形式的数据存储,例如本地文件系统或数据库等。为此,您需要引入一些内存数据存储,消息队列系统或其他系统。适用于您拥有的数据规模。

答案 2 :(得分:-1)

您可以尝试使用HUE。  请参阅:http://blog.cloudera.com/blog/2014/10/new-in-cdh-5-2-new-security-app-and-more-in-hue/

CDH 5.2包含重要的新的可用性功能,Hue是一个开源GUI,使Apache Hadoop易于使用。除了提供用于管理安全权限的全新应用程序之外,此版本特别功能丰富,并且正在成为Cloudera合作伙伴(如Tableau,MicroStrategy和Zoomdata)的BI工具的一个很好的补充,因为更实用的Hadoop转化为更好的BI整个组织的整体!