导出Hive数据增量

时间:2015-12-12 09:20:15

标签: hive sqoop

我们需要逐步运行HiveQL并将结果导出到avro fromat中的文件,我们需要导出记录。

以下是我看到的两种方式以及我在使用它们时遇到的挑战。

选项1:使用Pig和客户加载器:       一个。编写一个运行hive查询的自定义猪装载器。       湾写一个猪流并创建与蜂巢装载机结果的关系。       C。将结果保存在avro文件中。

选项2. SQOOP导出 - 我无法逐步找到导出配置单元查询结果的原因。

到目前为止,根据我的分析,我认为选择1将更符合我的要求。

如果您认为我们可以在sqoop中轻松实现这一点,请有人解释一下吗?

1 个答案:

答案 0 :(得分:0)

Sqoop可以将数据从HDFS目录导出到目标数据库,而不是文件。在这种情况下,sqoop不能

  1. 读取增量结果,除非您有单独的配置单元表或分区(这会导致新目录)
  2. 以avro格式写入外部文件。