如何在使用Hive的sqoop导出时覆盖MySQL表

时间:2016-10-11 14:16:01

标签: hive export sqoop

我需要将数据从Hive传输到MySQL。

这是我的sqoop命令:

jdbc:mysql://mysqlserver --username username --password password --table test --columns "member_id,answer_id,answerer_id" -m 1 --export-dir /user/hive/warehouse/utils.db/test --input-fields-terminated-by \001 --lines-terminated-by \n --update-mode allowinsert 

但是,每次运行此命令时,数据似乎都会附加到表中,但不会覆盖表。

那么,当我运行这个sqoop命令时,有什么办法可以自动截断MySQL表吗?

2 个答案:

答案 0 :(得分:3)

我认为您要做的是,每次上传数据时都要彻底刷新表格。通常这是需要在数据库端处理的东西。在执行插入之前,您需要删除所有记录。另一种方法是使用--staging-table参数和--clear-staging-table,这将确保每次都清除表。在这种情况下,您--table将包含一个每次都会被附加的虚拟表。您可以触发每天或在满意的时候清除该表的数据。我在下面给出了sqoop命令。我把“test”作为临时表,“虚拟”作为主表。

jdbc:mysql://mysqlserver --username username --password password --table dummy --columns "member_id,answer_id,answerer_id" -m 1 --export-dir /user/hive/warehouse/utils.db/test --input-fields-terminated-by \001 --lines-terminated-by \n --update-mode allowinsert --staging-table test --clear-staging-table

答案 1 :(得分:0)

对现有记录使用以下命令并插入新记录(如果有)。

sqoop import --connect jdbc:mysql://mysqlserver --username username --password password --table test --columns "member_id,answer_id,answerer_id" -m 1 --export-dir /user/hive/仓库/utils.db/test --input-fields-terminated-by \001 --lines-terminated-by \n --update-key --update-mode allowinsert

请注意,上面的命令不会应用删除。

如果您真的想截断数据并再次加载整个数据,请使用以下命令。仅当 source(hdfs) 已删除记录时才有用。

  1. sqoop eval --connect jdbc:mysql://mysqlserver --username username --password password --query 'TRUNCATE TABLE TABLE_NAME'
  2. sqoop export --connect jdbc:mysql://mysqlserver --username username --password password --export-dir 'HDFS_PATH' --table TABLE_NAME