在HDFS上逐步更新/添加数据

时间:2014-04-18 12:37:16

标签: postgresql hadoop sqoop

在我的应用程序中有4个表,每个表有超过100万个数据 目前,我的基于java的报告引擎连接所有表并获取数据以显示在报告中。

现在我想使用sqoop介绍Hadoop。我安装了hadoop 2.2和sqoop 1.9。

我做了一个小POC来导入hdfs中的数据。问题在于,每次创建新的数据文件。

我的需求是:

会有一个调度程序,它将在白天运行一次,它将:

  1. 从所有四个表中选择数据并使用sqoop加载hdfs。
  2. PIG将进行一些转换并加入数据,并准备具体的标准化数据。
  3. Sqoop将再次在单独的电子表格中导出此数据。
  4. 我对此几乎没有问题:

    1. 我是否需要在每次sqoop导入调用中将整个数据从DB导入HDFS?
    2. 主表中的
    3. 一些数据被更新,一些数据是新的,所以如果我在加载HDFS时合并数据,我该如何处理呢。
    4. 在导出时,我需要将整个数据再次导出到报告表。如果是的话,我该怎么做。
    5. 请在这种情况下帮助我......

      如果你有...,请建议我更好的解决方案。

1 个答案:

答案 0 :(得分:1)

Sqoop支持增量和delta进口。有关详细信息,请查看Sqoop文档here