Mapreduce,HDFS输入,Hive表输出

时间:2016-10-03 20:26:44

标签: mapreduce hive hdfs

我想编写一个mapreduce作业来执行以下操作:

  1. 读取HDFS文件。
  2. 验证表中已存在读取记录(Hive / Hbase)。
  3. 如果存在,请执行更新操作。如果它不存在,则将数据写入/插入表(Hive / Hbase)。
  4. 上述过程将每天重复。

    问题:

    1. 是否可以使用Hive实现上述逻辑?
    2. 如何写MR工作?任何实现上述逻辑的例子?

1 个答案:

答案 0 :(得分:1)

不仅仅是一种方法可以做你想要的。 是的,你可以在蜂巢中完成整个事情。 Hive有一些允许您访问Hbase的SerDes,因此您也可以从配置单元中使用它。

你的MR工作只由完成工作的地图工作者组成;无论如何,既然蜂巢可以做到,我认为写一份MR工作并不是一个好主意。 也许构建MR作业的快速方法是使用实​​用程序流,您可以用您喜欢的任何语言编写映射器。

如果两种情况,使用配置单元或小型MR工作,您可以将工作置于oozie下并使其每天运行。