如何在Sqoop导出和导入期间处理数据错误

时间:2016-05-26 01:31:00

标签: hadoop sqoop

如果源数据库中存在任何数据问题,例如 - 当数字字段有字符或 - 日期字段未正确填充时,

有没有办法处理这些异常并继续使用sqoop中的剩余记录而不会失败?

我可以看到几年前有类似的问题,但没有答案 Handling bad records during sqoop import or export

想知道最新版本的Sqoop中是否有任何选项。

提前致谢。

1 个答案:

答案 0 :(得分:0)

目前,此问题目前尚未解决。 Jira已于去年开业以寻找解决方案。但目前,你不能通过跳过它来处理不良记录。

https://issues.apache.org/jira/browse/SQOOP-1856

但是,可以通过使用自由格式查询在sqoop导入期间修改数据来处理错误记录。检查以下sqoop参数:

--query and --split-by

以下是sqoop cookbook关于自由格式查询的一个很好的教程:

https://www.safaribooksonline.com/library/view/apache-sqoop-cookbook/9781449364618/ch04.html