我要求数据以非常高的速率插入MySQL数据库(每隔几分钟30000-40000行)。在进行一些处理之后,我需要将这些数据从MySQL导入Hive,例如分组,总和。并使用Hive数据存储区运行一些分析过程。
我正在使用Sqoop来处理导入部分。 AFAIK,Oozie可用于将Sqoop导入配置为预定作业(每隔5分钟运行一次)。但是有可能在MySQL中更新/插入的基础上配置Sqoop导入,比如对于MySQL中的table1中的每个插入,sqoop作业应该运行以导入新插入的数据(在Sqoop的附加模式中),以便Hive中的数据应该几乎是实时的。