sqoop导入了很多NULL行

时间:2013-03-20 18:47:34

标签: hadoop hive sqoop

我正在将一个表从mysql导入到hive。该表有2115584行。在导入过程中,我看到了

13/03/20 18:34:31 INFO mapreduce.ImportJobBase: Retrieved 2115584 records.

但是当我在导入的表上执行count(*)时,我发现它有49262250行。发生了什么事?

更新:指定--direct时导入正常。

1 个答案:

答案 0 :(得分:6)

想出来。从sqoop用户手册:

  

如果数据库的行包含字符串字段,其中包含Hive的默认行分隔符(\ n和\ r \ n字符)或列分隔符(\ 01个字符),则Hive将无法使用Sqoop导入的数据。您可以使用--hive-drop-import-delims选项在导入时删除这些字符以提供与Hive兼容的文本数据。

我刚刚指定了--hive-drop-import-delims,现在就可以了。