我需要将数据从Hive传输到MySQL。
这是我的sqoop命令:
jdbc:mysql://mysqlserver --username username --password password --table test --columns "member_id,answer_id,answerer_id" -m 1 --export-dir /user/hive/warehouse/utils.db/test --input-fields-terminated-by \001 --lines-terminated-by \n --update-mode allowinsert
但是,每次运行此命令时,数据似乎都会附加到表中,但不会覆盖表。
那么,当我运行这个sqoop命令时,有什么办法可以自动截断MySQL表吗?
答案 0 :(得分:3)
我认为您要做的是,每次上传数据时都要彻底刷新表格。通常这是需要在数据库端处理的东西。在执行插入之前,您需要删除所有记录。另一种方法是使用--staging-table
参数和--clear-staging-table
,这将确保每次都清除表。在这种情况下,您--table将包含一个每次都会被附加的虚拟表。您可以触发每天或在满意的时候清除该表的数据。我在下面给出了sqoop命令。我把“test”作为临时表,“虚拟”作为主表。
jdbc:mysql://mysqlserver --username username --password password --table dummy --columns "member_id,answer_id,answerer_id" -m 1 --export-dir /user/hive/warehouse/utils.db/test --input-fields-terminated-by \001 --lines-terminated-by \n --update-mode allowinsert --staging-table test --clear-staging-table
答案 1 :(得分:0)
对现有记录使用以下命令并插入新记录(如果有)。
sqoop import --connect jdbc:mysql://mysqlserver --username username --password password --table test --columns "member_id,answer_id,answerer_id" -m 1 --export-dir /user/hive/仓库/utils.db/test --input-fields-terminated-by \001 --lines-terminated-by \n --update-key --update-mode allowinsert
请注意,上面的命令不会应用删除。
如果您真的想截断数据并再次加载整个数据,请使用以下命令。仅当 source(hdfs) 已删除记录时才有用。