在Sqoop中从MySQL导入以下数据子集:
mysql> select category_name, count(*) from categories group by category_name having count(*)>1;
我执行了以下查询:
sqoop import --connect jdbc:mysql:// localhost:3306 / retail_db --username root --password cloudera --query'select category_name,count()from category by category_name having count()> 1 AND $ CONDITIONS' - target-dir / user / cloudera / talli --split-by category_name;
我得到的输出为:
[cloudera@quickstart ~]$ hadoop fs -ls /user/cloudera/talli
Found 7 items
-rw-r--r-- 1 cloudera cloudera 0 2018-03-29 13:40 /user/cloudera/talli/_SUCCESS
-rw-r--r-- 1 cloudera cloudera 0 2018-03-29 13:40 /user/cloudera/talli/part-m-00000
-rw-r--r-- 1 cloudera cloudera 14 2018-03-29 13:40 /user/cloudera/talli/part-m-00001
-rw-r--r-- 1 cloudera cloudera 0 2018-03-29 13:40 /user/cloudera/talli/part-m-00002
-rw-r--r-- 1 cloudera cloudera 0 2018-03-29 13:40 /user/cloudera/talli/part-m-00003
-rw-r--r-- 1 cloudera cloudera 0 2018-03-29 13:40 /user/cloudera/talli/part-m-00004
-rw-r--r-- 1 cloudera cloudera 14 2018-03-29 13:40 /user/cloudera/talli/part-m-00005
即。我可以看到 6个映射器文件。
任何人都可以解释为什么当默认的映射器数为4时(以及我没有使用-m显式提供任何数字时)?