使用Sqoop将RDBMS更新到HDFS中

时间:2014-12-04 06:44:54

标签: hadoop sqoop

我正在尝试编写一个sqoop作业,以满足以下要求。

  1. 我有一张XYZ表,其中每天可能会创建约1百万条新记录,并且会有0.5万条更新。
  2. 我将有一个结束日Sqoop作业,它应该从XYZ到HDFS获取增量数据,并获得更新的记录并与HDFS同步。
  3. 我很乐意实施第1点,但找不到第2点的可行解决方案。

    请帮助!!!!

    谢谢, Raghu

1 个答案:

答案 0 :(得分:3)

对于此特定情况,您可以在需要的情况下执行增量sqoop lastmodified -check-column last_modified_col -last-value“2014-10-03 15:29:48.66”

请参阅下面的示例查询示例

sqoop job –create incr1 — import –connect jdbc:mysql://192.168.199.137/testdb123 –username testdb123 –password testdb123 –table Paper_STAGE –incremental lastmodified –check-column last_modified_col –last-value “2014-10-03 15:29:48.66″ –split-by id –hive-table paper_stage –hive-import

Hive HDFS 是可选的,您可以在任何想要提供数据的地方选择其中任何一个。