Sqoop增量作业导入的记录数量多于源数据

时间:2015-09-30 10:40:20

标签: hadoop sqoop

我创建了sqoop作业以从Netezza导入数据。它通过每天比较来自源的时间戳列(检查列)来导入数据。我观察到,与Netezza中的源表相比,这项工作每天导入更多的记录。

这项工作似乎没有问题或错误。 " incremental.last.value'每次运行也会正确更新。

如何找出工作有什么问题。我使用的是Sqoop版本:1.4.5.2.2.6.0-2800

2 个答案:

答案 0 :(得分:0)

是否可以显示所使用的sqoop作业语句。如果是,请尝试使用其他拆分列中的任何拆分列。

答案 1 :(得分:0)

更多调查显示该工作正常。问题在于验证方法。我试图验证Netezza和Hive中给定日期的行数。但是,检查列的日期值在Netezza中更新。这些更新不会以任何方式反映在Hive上。因此,在Netezza方面,一天的记录数量不会保持不变。

这个问题很好地学习了首先检查所考虑的场景的所有条件。除了写入代码的正确性之外,实现输出可能涉及很多因素。