Pig和Hadoop之间的区别

时间:2014-11-24 17:28:27

标签: hadoop apache-pig

Pig和Hadoop之间的区别是什么? Pig是否在Hadoop之上运行,另外还提供Pig Latin以充分利用Hadoop的技术?

1 个答案:

答案 0 :(得分:3)

Hadoop由2个组件HDFS和MapReduce组成。

  • HDFS是一个用于存储大块数据的分布式文件系统,具有高度可扩展性和可扩展性。容错tolerent。
  • 另一方面,
  • MapReduce是处理引擎,可以处理存储在HDFS中的数据。 MR尝试将计算带到数据所在的位置(数据位置)。

为了设计处理/分析存储在HDFS中的数据的算法,MapReduce提供以下API:

  • JAVA API - 允许用户编写MapReduce应用程序,通常分为两个阶段Mapper& Reducer
  • Streaming API - 允许用户编写地图&减少动态编程语言,如Python / Perl / Ruby / Shell /...
  • 管道 - 允许用户编写地图&在C ++中减少

Pig&另一方面,Hive是位于MapReduce之上的框架,可以将分别用PigLatin(数据流语言)或HiveQL(类似SQL语法)编写的代码转换为一组MapReduce作业,这些作业可以节省大量的编程时间。