我正在将一个表从mysql导入到hive。该表有2115584
行。在导入过程中,我看到了
13/03/20 18:34:31 INFO mapreduce.ImportJobBase: Retrieved 2115584 records.
但是当我在导入的表上执行count(*)
时,我发现它有49262250
行。发生了什么事?
更新:指定--direct
时导入正常。
答案 0 :(得分:6)
想出来。从sqoop用户手册:
如果数据库的行包含字符串字段,其中包含Hive的默认行分隔符(\ n和\ r \ n字符)或列分隔符(\ 01个字符),则Hive将无法使用Sqoop导入的数据。您可以使用--hive-drop-import-delims选项在导入时删除这些字符以提供与Hive兼容的文本数据。
我刚刚指定了--hive-drop-import-delims
,现在就可以了。