在具有混乱数据且没有修改时间列的表上的sqoop中的增量导入

时间:2017-03-15 11:13:10

标签: hadoop import hive sybase sqoop

假设我有一个表Customer:

CustomerID  CustomerName  CustomerBill
7           John          100
2           Bill          500
4           Mark          200

此处CustomerID是主键,但记录没有特定顺序。数据库中的相应表中没有修改的时间列。之前的条目也可以更改。如何对数据进行增量导入?

我使用的数据库是Sybase并将其导入Hive。

1 个答案:

答案 0 :(得分:0)

  

记录没有特别的顺序。

append 模式无法使用。

  

数据库中的相应表中没有修改时间列。

lastmodified 模式无法使用。

Sqoop确实做了一些特别的事情。它需要递增ID或更新的timstamp来使SQL查询获取 ONLY 插入/更新recored。