尝试在sqoop导入中使用--boundary-query参数时出错

时间:2018-11-12 15:53:51

标签: mysql hadoop mapreduce sqoop

我正在独自学习sqoop,并尝试运行以下代码从数据库中检索前3000条记录,并按主键emp_no进行平均分配

 sqoop import \

 --connect jdbc:mysql://localhost/employees \

 --username root \

 -P \

--query 'select * from employees WHERE $CONDITIONS ORDER BY emp_no LIMIT 3000' \

--split-by emp_no \

-m 3 \

--target-dir sqoop/import_data/employee_db_import \

--delete-target-dir

以上语句产生的结果平均分配每个映射器1000条记录。

现在,为了进一步学习,我将--boundary-query参数添加为

 --boundary-query 'select MIN(emp_no),MAX(emp_no) from employees' 

上述语句和map reduce作业现在正在从数据库中读取9000条记录。我想知道为什么会这样吗?

0 个答案:

没有答案