我是新的Sqoop工具。我想从oracle加载数据到Hive。
我在oracle表中有大约3000万条记录。有一个整数类型的列,名为period_id,它有大约200个不同的值,以下是peroid_id及其来自select Header
的计数。
PERIOD_ID,COUNT(1) from X group by PERIOD_ID
我想基于枚举而不是period_id列的范围来运行导入, 比方说,我有101个不同的period_id值,我想像下面这样开始工作,也就是说,每个查询只在一个perioid_id上运行。
PERIOD_ID,COUNT(1)
201610,529334
20180202,1555
20180214,72617
20180227,284139
20180303,38519
20180325,348953
20180328,407374
20180403,28859
20180412,155236
20180413,174642
20180423,335535
20180428,425606
201608,591102
20180215,72617
20180304,45293
20180306,76454
20180310,142127
20180316,215547
20180402,17049
20180406,65055
20180504,45933
201712,683624
20180213,72617
20180226,268053
20180313,170111
20180317,219368
20180329,428565
...
在我看来,Sqoop正在为Integer列使用基于范围的拆分策略,但我想在我的案例中使用基于枚举的拆分策略。
有人可以帮我了解如何根据枚举配置sqoop命令参数以进行拆分吗?