我正在独自学习sqoop,并尝试运行以下代码从数据库中检索前3000条记录,并按主键emp_no进行平均分配
sqoop import \
--connect jdbc:mysql://localhost/employees \
--username root \
-P \
--query 'select * from employees WHERE $CONDITIONS ORDER BY emp_no LIMIT 3000' \
--split-by emp_no \
-m 3 \
--target-dir sqoop/import_data/employee_db_import \
--delete-target-dir
以上语句产生的结果平均分配每个映射器1000条记录。
现在,为了进一步学习,我将--boundary-query参数添加为
--boundary-query 'select MIN(emp_no),MAX(emp_no) from employees'
上述语句和map reduce作业现在正在从数据库中读取9000条记录。我想知道为什么会这样吗?