我有与以下类似的查询
sqoop export
--connect jdbc:teradata://server/database=BIGDATA
--username dbuser
--password dbpw
-Dsqoop.export.records.per.statement=500
--batch
--hive-table country
--table COUNTRY
--input-null-non-string '\\N' \ --input-null-string '\\N'
上面的查询对300万条记录有效(花费1个小时将数据加载到TeraData表中)。对于将数据导出到Teradata空表的1亿条记录,我认为可能需要更多时间才能完成导出。如何有效地编写查询以更快地导出数据而又不会使查询失败?
答案 0 :(得分:0)
您可能需要考虑将--fetch-size
(sqoop必须提取的数据条目数)从默认的1000
增加到e.g
--fetch-size 10000 0r 20000
,具体取决于在您的可用内存以及环境的带宽上。