在我的案例中如何有效地使用Sqoop从oracle导入Hive

时间:2018-06-10 04:25:14

标签: hadoop sqoop

我是新的Sqoop工具。我想从oracle加载数据到Hive。 我在oracle表中有大约3000万条记录。有一个整数类型的列,名为period_id,它有大约200个不同的值,以下是peroid_id及其来自select Header的计数。

PERIOD_ID,COUNT(1) from X group by PERIOD_ID

我想基于枚举而不是period_id列的范围来运行导入, 比方说,我有101个不同的period_id值,我想像下面这样开始工作,也就是说,每个查询只在一个perioid_id上运行。

 PERIOD_ID,COUNT(1)
    201610,529334
    20180202,1555
    20180214,72617
    20180227,284139
    20180303,38519
    20180325,348953
    20180328,407374
    20180403,28859
    20180412,155236
    20180413,174642
    20180423,335535
    20180428,425606
    201608,591102
    20180215,72617
    20180304,45293
    20180306,76454
    20180310,142127
    20180316,215547
    20180402,17049
    20180406,65055
    20180504,45933
    201712,683624
    20180213,72617
    20180226,268053
    20180313,170111
    20180317,219368
    20180329,428565
    ...

在我看来,Sqoop正在为Integer列使用基于范围的拆分策略,但我想在我的案例中使用基于枚举的拆分策略。

有人可以帮我了解如何根据枚举配置sqoop命令参数以进行拆分吗?

0 个答案:

没有答案