Question

我有一张名为＆＃39;员工＆＃39;在SQL Server中：

ID  NAME    ADDRESS   DESIGNATION
1   Jack     XXX       Clerk
2   John     YYY       Engineer

我在hive中创建了一个外部表（emp），并通过sqoop导入我使用sqoop的--query参数将数据从employee导入到hive表。如果我提到--query as＆＃39; select * from employee＆＃39;然后数据正确地插入到hive表中。但是如果我提到--query为＆＃39; select ID,NAME,DESIGNATION＆＃39;来自员工＆＃39;那么＆＃39;员工＆＃39;的DESIGNATION栏中的数据table（rdbms）正被插入到＆＃39; emp＆＃39;的地址栏中。表而不是插入指定列。当我运行以下配置单元查询时：

select designation from emp;

我得到的价值是：空值空值而不是：职员工程师但是，如果我将hive查询运行为：

select address from emp;

我得到的价值是：书记工程师而不是：NULL 空值修复这些不正确数据的任何想法都会有很大帮助。我目前正在使用0.11版本的配置单元，因此我无法使用0.14 hive版本提供的配置单元插入查询。

Answer 1

Sqoop语句将数据导入到hdfs目录中（假设字段分隔符为，）

1,Jack,Clerk
2,John,Engineer

因此，地址列将具有DESIGNATION数据，而DESIGNATION列将为空

您可以尝试 - 查询“从员工中选择ID，NAME，'，DESIGNATION”，这应该可行

Answer 2

好的，我给你看样品。

sqoop import --connect jdbc:mysql://host:port/db'?useUnicode=true&characterEncoding=utf-8' \
--username 'xxxx' \
--password 'xxxx' \
--table employee \
--columns 'ID,NAME,DESIGNATION' \
--where 'aaa=bbb' \
-m 1 \
--target-dir hdfs://nameservice1/dir \
--fields-terminated-by '\t' \
--hive-import \
--hive-overwrite \
--hive-drop-import-delims \
--null-non-string '\\N' \
--null-string '\\N' \
--hive-table 'hive_db.hive_tb' \
--hive-partition-key 'pt' \
--hive-partition-value '2016-01-20'

并且某些参数是可选的。

sqoop语法详细信息： http://sqoop.apache.org/docs/1.4.2/SqoopUserGuide.html#_literal_sqoop_import_literal

sqoop从rdbms表中将数据插入到错误的hive列中

2 个答案:

sqoop从rdbms表中将数据插入到错误的hive列​​中

2 个答案:

sqoop从rdbms表中将数据插入到错误的hive列中