我非常喜欢蜂巢和sqoop
,因为我的公司刚刚采用它们。因此,我尝试将数据从sql
数据库导入hdfs/hive
。但是,我们仍然只有几个集群,所以我担心一次导入所有数据(总共1900万条记录)。我已经疯狂地搜索了一个解决方案,但我发现的唯一接近我正在寻找的是使用增量导入。但是,这不是解决方案,因为它导入比第一次导入更新的所有内容,并且我有2年的历史数据。
因此,有没有办法追加到我缺少的表(例如,我可以一次将一个月导入到同一个表中?
这是我用来将第一块数据插入表中的初始命令。
sqoop import --driver com.microsoft.sqlserver.jdbc.SQLServerDriver \
--connect jdbc:sqlserver://******omitted******* \
--username **** \
--password ******* \
--hive-table <tablename> \
--m 1 \
--delete-target-dir \
--target-dir /apps/hive/warehouse/<dir to table> \
--hive-drop-import-delims \
--hive-import --query "select * from <old sql table> where record_id
<='000000001433106' and \$CONDITIONS"
感谢您的帮助。