我尝试使用增量导入,但我必须指定追加或 lastmodified 。我需要所有更改,包括修改和新记录。
答案 0 :(得分:0)
这里的描述部分正确。
根据docs,
Sqoop支持的备用表更新策略称为lastmodified模式。您应该在更新源表的行时使用此选项,并且每次此类更新都会将最后修改的列的值设置为当前时间戳。 检查列包含的时间戳比使用--last-value指定的时间戳更新的行。
(重点是我的)
现在让我们尝试使用示例
来理解这一点我有employees
,name
和salary
字段的表updated_on
。样本记录:
name |salary | updated_on
dev | 2000 | 2016-01-01
现在一些员工的薪水在下个月发生了变化,一些新员工在那个月加入了。
现在,在您的Sqoop导入命令中,您将指定--check-column updated_on
,--incremental lastmodified
和--last-value "2016-01-01"
。
导入此--last-value
后添加或更新的所有记录。