使用sqoop作业进行Sqoop增量导入

时间:2019-05-01 16:04:43

标签: sqoop

我有一个需要自动化的提取管道。它是来自SQL Server数据库的增量负载。当前的管道使用python编写,可计算表格的最小值和最大值,然后在--query标记中使用这些值。

我知道我们可以使用Sqoop作业以更有效的方式执行此操作,因为它会在每次运行后自动将最后一个值存储在Sqoop元存储中。现在的问题是,配置单元表中已经有很多数据。 Sqoop Job 是否允许我们提供仅在首次运行时使用的--last-value?

想象一个桌子,

id        | value
------------------------
1         | a
2         | b
3
4
.
.
.
200 000  |xyz

我将使用 Sqoop Job 自动执行此过程,但仅在第一次运行时才需要将--last-value传递为200 000。在下一次运行中,它将从Sqoop元存储库中自动获取更新的最后值。

我不确定第一次运行后的last-value参数是否会在metastore中更新为新值,还是会在每次运行中继续使用相同的值。

0 个答案:

没有答案